解密:如何高效做到數據優化,提升數據分析效能與價值?

解密:如何高效做到數據優化,提升數據分析效能與價值?

本文來自永洪科技售前總監 | Felix

所謂「工欲善其事,必先利其器」,在數據分析大行其道的今天,如何高效做到數據優化,提升數據分析效能與價值,成為企業IT部門面對的重要課題之一。

小張的麻煩

小張是一家公司的IT部門員工,負責公司信息系統運維管理。今年年初,公司為了做到數據化驅動轉型,將數據價值最大化,斥資購置並搭建了一套數據分析系統,希望能夠從公司各部門產生的大量業務數據中獲得更大的增長空間。

系統上線之後,小張工作變得愈發忙碌,除了需要頻繁督促部門人員的業務數據錄入之外,還要通過系統對業務數據進行分析整理,查看可能存在的問題和業務改進的空間。小張相信,這些數據中蘊含著改進業務的巨大價值。

然而隨著系統運行,小張發現,數據分析的結果中,存在一些莫名其妙的問題:

生產流程的平均時長比完成所有流程總共的時間還長;

原材料採購占比最大的省份占比居然只有個位數;

員工男女比例嚴重失調;

……

經過仔細查找後,小張發現系統所用到的部分數據源中的原始數據沒有經過充分的準備處理,存在大量無效數據甚至垃圾數據,導致分析結果存在巨大的差異,以至於完全無法使用,例如:

生產部門人員忘記錄入流程的結束時間,導致生產流程時間記錄大大延長;

省份信息錄入名稱不統一,「北京」 、「BJ」、「Beijing」 等信息混錄,被識別為不同省份;

性別信息以數字1、0錄入,未錄入信息因空值被補記為0,導致女性員工統計數量大幅增加;

……

小張不得不通過各種方式手動修改這些數據,再加上不斷增加的數據分析與報表任務,工作壓力越來越大,小張也被搞得焦頭爛額。

當然,小張遇到的問題只是許多數據治理問題的縮影。事實上,在構建數據分析系統的過程中,IT人員會面臨更多、更複雜的數據問題,而這也是企業構建數據體系時,不得不面對的重要課題。

(一)「臟」數據

解密:如何高效做到數據優化,提升數據分析效能與價值?

對於數據分析系統而言,數據的錄入往往存在或多或少的不規範性,如重復記錄,遺漏的空值,明顯不合理的異常數值、未根據相應指標改變的參考值等情況,這種數據一般被稱為「臟數據」。 數據處理過程中常見的「臟數據」主要有以下幾類:

1. 數據重復:出現多條相同記錄,且往往出現的複雜情況是記錄不完全重復,例如:兩條記錄,僅有地址信息不同,而其餘值完全相同。

2. 關鍵數據缺失:缺失部分數據記錄,或記錄裡存在空值,或兩種情況並存。如果有空值存在,為了不影響分析準確性,一般或者不將空值納入分析範圍,或者選擇用平均數、零或等比例隨機數進行填補進行補值。如小張所在公司的數據系統,對於未正常填寫的生產流程完結時間一律按照夜間24點進行填補,因而產生生產流程超長的情況。

3. 數據錯誤:數據沒有嚴格按照規範記錄。這種情況一般包括異常值(超出正常區間的數值),格式錯誤(如日期格式錄成字符串)或數據不統一(如北京記錄成北京、BJ或Beijing)。

4. 無法關聯:數據正確,但不可用。這種情況常見於字符串,如地址「北京海淀中關村」記錄在同一字符串中,無法將「海淀」這一具體城區級別拆分出來,導致無法分析城區數據。

這些數據如果不進行整理就直接進行分析,會對分析的結果準確性與價值產生很大影響,正如文章開頭小張面對的問題一樣。

在完整的數據分析體系中,一個很重要的環節叫做「數據準備」,其目的就是對「臟數據」進行相應的「清洗」,減少或避免這些數據對分析結果可能產生的影響,最大化數據分析可以提取的數據價值。

(二)如何「清洗」數據:手洗vs機洗

數據準備並非一個新鮮的概念。在IT部門仍然是企業數據分析核心部門的時候,數據準備就一直是IT部門最重要的數據處理任務之一。根據不同的數據問題類型,IT人員需要對數據系統制定不同類型的處理策略,甚至手動處理部分數據。

在傳統數據分析系統中,這一工序通常由IT人員通過不同類型的數據處理工具,或者編寫大量的SQL加工邏輯完成,繁瑣複雜,耗時耗力。在數據分析的整個過程中,數據準備有時會占到整體流程時間的70%以上,嚴重降低了IT部門的工作效率。

同時,傳統數據分析系統過度依賴IT部門,從數據準備到報表生成都要依靠IT部門執行,使其迅速成為數據分析流程的「瓶頸」。這種通過IT部門「手洗」數據的過程,會因為各業務部門的大量數據業務堆積,加劇IT部門的「數據瓶頸」效應,影響整個數據分析流程的進度與企業對數據價值的應用效率。

隨著以永洪為代表的大數據平台的使用不斷深入,幫助IT和業務人員降低了數據分析門檻,將數據分析能力從IT部門輻射到更多業務部門中,數據準備成為為數不多仍需IT部門集中參與的數據分析流程之一,這一瓶頸地位愈發凸顯。簡化數據準備過程,將IT部門從重復性的繁瑣數據準備工作中解放出來,成為越來越多企業開展數據分析業務的核心訴求。

而對於致力於將數據分析能力賦予普通用戶,讓「釋放數據價值,人人都是數據分析師」的永洪來說,這正是其在數據分析領域致力解決的問題之一。永洪科技在2016年11月26日舉辦的用戶大會上正式推出的永洪一站式大數據分析平台Yonghong Z-Suite V7.0,已經無縫打通了數據分析全鏈條;其中的重要功能之一,就是「自服務數據準備」。

據永洪科技售前總監 Felix介紹,永洪的「自服務數據準備」,是指通過點擊、拖拽等方式,完成異構數據源間的相互關聯、轉化,以可視化流程的方式完成數據建模,主要功能包括:

1.拖拽式操作做到數據去重功能;

2.缺失值填充,支持自動獲取最大值、最小值、平均值及自定義值;

3.盡早發現異常數據,可通過定位指標範圍,快速判斷數據的有效性、合理性;

4.此外,Yonghong Z-Suite還有很多其他實用功能,如對數據進行分組與匯總、行列轉化、日期維度拆分以及計算非工作日等;

5.除以上功能外,Yonghong Z-Suite還有一個重要的特性,即能夠實時將各數據節點的性能以通過連線顏色及提示信息的方式及時告知用戶,從而讓用戶盡早做出合理預判:若連接線為黃色,表示性能較差,可能需要進行優化;如果連接線出現紅色,則不建議通過此種方式做到數據關聯。

舉例來說,通過拖拽完成兩張表單的聯合如下:

解密:如何高效做到數據優化,提升數據分析效能與價值?

數據的聯合

聯合之後,可以直接進行自動去重操作:

解密:如何高效做到數據優化,提升數據分析效能與價值?

去重

之後,借助自動布局與性能檢測,即可完成對不同數據節點性能的展示:

解密:如何高效做到數據優化,提升數據分析效能與價值?

演示

Felix指出,這些功能允許IT部門在統一化大數據平台上,通過拖拽操作的方式快速構建數據準備工作,減少對於外部工具的大量適配應用與SQL語句的編寫工作,以更加簡便直觀的「機洗」輔助完成數據「清洗」,大幅節約數據準備時間,有效減輕IT部門的「數據瓶頸」壓力。而一旦數據準備工作得以高效完成,數據分析對數據價值的釋放也能得到最大化的體現,「小張」們的問題也就迎刃而解了。

正所謂「工欲善其事,必先利其器」。在數據分析的過程中,通過快捷、直觀、可視化的工作流方式,快速完成對數據的準備工作,發現並糾正數據問題,保證數據的一致性,不僅能夠為企業節約人力與時間成本,同時對於提升數據分析帶來的價值與強化企業數據驅動能力,都具有重要的意義。