【資料科學】 - 三大影響因素

資料科學 - 影響數據分析的三大關鍵因素

推薦讀物:What Makes Big Data Projects Succeed (繁中版 )

-  Harvard Business Review, March, 2014

現今企業,大數據無所不在,從小數據的分析專案到大型人工智慧實作應用漸趨普遍,公司職缺中也出現越來越多"資料分析師"、"數據分析專員"、"AI 工程師"及"AI專案經理"等工作如排山倒海而來,除了相關資料工作者的供給不達市場需求外,組織的轉型、流程的再造、高層的支持,甚至是技術軟體、硬體的支援都是使數據分析成功的關鍵因素!筆者將導入數據分析專案的成功要素簡要分成三個關鍵因素:(1)科技與技術 (2)人為的因素 (3)流程的規劃 

科技與技術

大數據崛起無非就是網路的普及數據儲存的效率提升處理數據的能力躍進,因此在處理數據時,工具的選擇變得格外重要!

舉例而言,

傳統統計分析、資料處理,以 R 作為處理數據的工具相當實用,不僅在效能上、處理速度上,以及程式語言的上手難度,都是資料分析師的不二選擇;但是當數據的量到達幾十萬筆,R 語言的能力開始出現瓶頸,不僅在效能上開始變差、速度加倍緩慢,甚至超出語言本身的處理能力,這時候 Python 便能發揮明顯的戰力,雖然在資料視覺、資料處理的應用能力略遜 R 語言一籌,但在機器學習、人工智慧演算法的應用上,更加實用!

那麼簡而言之,Python 理當是最佳的大數據分析工具囉!?實際上,並不然,當資料量達到 GB、TB、甚至 PB 等級時,分析的工具不在只是單純程式語言的選擇,搭配 GPU、TPU、雲端運算、虛擬機器等工具,更是必由之路!因此進行數據分析的專案時,並非一定要選擇最強的硬體或應用程式,而是根據不一樣的專案大小,處理不一樣的資料量時,能夠適時的選擇不一樣的工具進行操作;隨著工具不同,演算法、軟硬體技術,也都略微差異,無論是在硬體的部署,或是在軟體工具的操作上,資料科學家們都應有相當程度的認識與理解

人為的因素

能否找到適任的人選,一直是起草數據分析專案的關鍵之一!但除了數據分析師、資料科學家、AI 工程師等職位的選擇相當關鍵外,公司內部一致的認同與支持更是重要,因為數據分析的專案,常常需要跨部門協作,甚至需要 RD 部門相關技術支援等等,若無法齊心一致支持數據分析、AI 應用實作,資料分析、人工智慧等專案將難以於組織內推動。

以下舉兩個較重要的例子,探討企業成員的影響層面:

(壹) 領導者

資料科學是一門新興的顯學,許多企業主因為過度著迷於新科技的盛名,一昧的追求「大數據」與「人工智慧」的工具、抑或是引進大批人才,但往往管理風格、決策方式卻一如往常,憑藉著第六感及直覺進行重大決策與管理,也因而失了『資料科學』的一番美意;因此,在企業主決心引進資料科學於公司上下時,不單僅憑著"Top Down"的行政命令,更重要的是:從上到下推動數據決策文化,任何的決策都應由數據引導決策,從接單生產、行銷謀略、人才聘僱、研發製成、財務槓桿等大大小小的管理流程,都理當引進嚴謹的數據分析。
以鴻海為例,除了Top Down下來的行政命令外,全部主管職一律都需要接受「數據分析」與「人工智慧」等相關課程,就連郭董也必須一同上課!此外,課後還必須接受考試,成績更會列入主管個人的KPI評比!由此可見,引進「數據決策文化」需要痛下多大的決心!

(貳) 傳統研發部門

在公司決心走向 人工智慧/數據分析 的路上,經常會成立一個專責部門「人工智慧研發部」or「大數據分析部」等,但是往往首當其衝的部門即是傳統的研發部門,就是新領域的研發部門隸屬於傳統的研發部呢?還是傳統的 RD 就此被新的 AI Dept. 所取代?若無妥善溝通,可能會造成內部重工、權責不分,甚至造成部門內鬥、組織惡意競爭等狀況產生;在看過許多知名企業的轉型案例,Google 、Microsoft、阿里巴巴、騰訊等等知名跨國企業,統整後基本上有三種組織變化的方式:

(1) 傳統研發 與 AI 創新研發團隊並立

(2) 廢除傳統研發單位,成立 AI 研發中心

(3) 推動傳統研發單位轉型 AI 研發中心

以上三種各有利弊,

先談論弊的部分:(1) 難免不了重工議題,可能出現逾越職權等狀況發生,也因此容易產生內部紛爭;(2) 傳統研發單位具有傳統研發的經驗知識與相關人才,在推動廢除傳統研發單位時,往往會造成部分有經驗、有能力的老將離開公司,也容易造成技術流失、技術斷層;(3) 轉型過程中,容易遇到部分職員不適應技術轉型,導致轉型過程冗長而沒有效率,甚至可能面臨轉型失敗的危機。

利的部分:(1) 並立的情況下會促進某種程度上內部競爭,對企業整體發展有正向的影響力,甚至能有一些技術支援、交流等機會,促進組織活化;(2) 果斷廢除不必要的傳統研發單位,更能推動技術轉型,在時效上具有優勢,但也需要壯士斷腕的勇氣;(3) 轉型過程中,能給予企業內部更多適應、學習的時間,也能使員工們較能接受企業文化的轉型。

流程的規劃

數據分析的成效受到組織運作流程所羈絆著,從前段的資料分析,也就是資料蒐集的步驟開始,若無工具、無系統化的流程來取的原始數據,那對資料分析師而言,絕對是一大折磨;因此當導入數據分析於企業內部時,往往會需「陣痛期」,顧名思義即為非常痛苦的時期,首先依據所需要的數據進行定義,接著找到搜集數據的方法與工具,而這個過程也能夠稱之為『流程再造』;並非原先的流程不夠有效率,而是為了配合數據的蒐集與整併,而搭配流程的修改,也因此有了「資料科學的80-20法則」一說,而更詳細的內容、分析的流程,後面章節也將接續說明。

由此篇文章所提到的「導入資料科學的三大要素」,大家是否能更清楚體會"大數據"的難處了呢?到底是什麼樣的魅力能夠讓企業們紛紛挑戰如此高難度的應用呢?讓我們一同探究下去!若有任何疑問或建議,我們相當歡迎讀者們,針對此議題來信與自由團隊做進一步探討喔!(Email: AI.Free.Team@gmail.com)