每個資料科學工作者,執行資料分析專案中,耗費最多時間、財力、物力的環節,不外乎就是在資料的整理上,從資料的選擇、定義、蒐集、清理、整合、儲存等等,大約占數據分析的 80% 的成本,因此業界的資料科學工作者,提出了資料分析的 80-20 法則,意即資料分析最困難、繁瑣的步驟,其實在於前端資料的整理與蒐集,後端的 20% 不是不重要,而是相較於前端資料分析,資源的分配會需要較多的優先分配至 前80%,以下讓我們簡單了解每個步驟與分析的流程吧!
------------- 80 % -------------
Data Selection (資料的選擇)
在決定分析的主題、面向、核心方法及工具後,鎖定具關聯性的資料、屬性、特徵 ... 等,通常須深入認識此應用領域知道 (Business Domain Knowledge),舉例來說,股票分析即需要相關領域知識的支持,方能鎖定可能影響股價的數據。
Data Gathering (資料的蒐集)
針對目標資料進行資料蒐集,可能的蒐集管道可能為現有公司內部的Database,可能是公開的外部資訊,也可能為:問卷蒐集、網路爬蟲、Sensor 傳來的 data、RFID Tag...眾多管道皆能蒐集到分析所需的數據,重點強調在「在最佳化經濟效益、最小化時間成本的情況下,取得最多、最完整的Data」為首要之務。
Cleaning (資料的清理)
根據蒐集的資料,進行細化觀察,針對 Noise (雜訊) 、Outlier (離群值) 、 Missing Value (遺漏值) 進行資料清理,也稱做資料預先處理(Data Preprocessing),意即將處理一些資料不正確、偏誤或格式不一致的狀況。
Integration (資料的整合)
將清理完畢的資料 (Cleaned Data),進行統合與彙整;舉例來說,分析網路評價的數據時,有部分可能蒐集自 google analytics 的瀏覽人次數據,有部分為拜訪者的評語、留言等,此時,便需要將不同資料格式的 Data 進行整合,以便進行後續的網站評價分析。
Storage (資料的儲存)
整理完 Data 後,接下來便是如何將資料進行儲存、倉儲;一個好的資料倉儲管理,可以提升資料分析師的效率,同時能確保資料的完整性及一致性,並能同時掌握過往的歷史資料。
------------- 20 % -------------
Feature Selection (資料特性的選擇)
透過不同分析的面向,來選擇需要什麼類型的資料,以及維度的選擇;舉例而言,分析房市的現況時,計算大台北地區分區的每坪售價與分析不同購屋族群的選購標的,需求的資料也隨之不同。
Knowledge Extraction (知識的萃取)
使用工具、方法論,從 Data 中挖掘出所需的知識、 Insights,進而驗證分析的假說,甚至進一步預測未來可能發生的情況。
Visualization (視覺化)
將分析後所獲得的知識和資訊,透過圖表的呈現、報告的製作,傳達分析的結果與重大發現,進而引導管理者進行決策;通常在此程序將考驗資料分析師、資料科學家「說故事」的能力,如何將數據、圖表透過專業的質化分析表達給上層理解,甚至讓不同領域的主管也能聽懂,都將仰賴分析師的表達力。
這邊先簡單跟讀者們淺談資料分析的一般流程,但資料科學的分析應用非常廣泛,機器學習、人工智慧皆是更深入的分析應用,不同的應用,流程上也會有些許的變化,後續也將跟讀者們進一步做分享!
若有任何疑問或建議,我們相當歡迎讀者們,針對此議題來信與自由團隊做進一步探討喔!(Email: AI.Free.Team@gmail.com)