跳到主要內容

雜談 | 邁向資料科學家之路 其一

我在曾在〈不是工程師的工程師〉一文當中,開宗明義地介紹這個部落格的目的。

既然是以成為「未來的資料科學家」為目標,那麼總該清楚回答:資料科學是什麼?資料科學家平常在幹嘛?以及其價值定位……等等問題。於是,我決定用兩篇文章的篇幅,第一篇談「入門」與「觀念」;第二篇談「技術」與「職場」,依序回答每個層級的相關疑惑。
多數內容或許都是老生常談(尤其對業界人士,或者像我一樣有同樣目標的在學者而言),但我仍希望將自己的學習歷程,做個有系統的回顧與統整,乃至於和我有相同目標的同好、亦共同參考學習。


【入門】

如同文章開頭提到的,我們總得從最根本的問題回答起:
什麼是資料科學?
揭開資料科學的神秘面紗〉這篇文章中給了簡單扼要的說明。
作者Meng Lee本身就是一名資料科學家,他根據他個人的經驗,說明了到底啥是資料科學?資料科學到底在夯什麼?為什麼我要學資料科學?

如何成為一名資料科學家?

如何成為一名資料科學家?〉裡頭提到,一位資料科學家,不外乎同時具備以下這三項專業能力:Hacking Skills, Math & Statistics Knowledge, Substantive Expertise
此外,他也以自身企管顧問背景的經驗,提出了另一套看法,他說明了「商業力」、「分析力」、「技術力」這三種專業能力結合的重要性,也就是能理解業務(Domain Knowledge)、知道如何有系統地分析與業務相關的問題(Analysis)、以及透過數學、程式語言、軟體等工具來解解決上述問題的能力(Programming、Coding),尤其對商業環境當中的資料科學家而言,尤是如此。

關於資料科學的迷思

現在我們對資料科學與資料科學家,都能有個87成概念了,但是目前為止談的都是美好的理想與目標,而現實總是殘酷的,我們總得認清哪些是媒體、廣告商、與補習班過度跨大及美化的噱頭、還有自己幻想出來的美好泡泡。
資料科學的五大迷思〉一文,就為我們歸納並解惑了許多常見迷思,包含對資料科學的功用的過度誇大、什麼都得來個大數據的浪潮、還有「以為上過幾堂Python、SQL、Machine Learning課程,就可以是一名資料科學家/工程師」等等膚淺的認知。〈資料科學家的告白:給幼苗們的忠告〉一文也提醒我們該如何踏地成為一名資料科學家。


【觀念】

在有了全面性的認識之後,接著我們來談,作為一名資料科學家,應該具備的重要觀念認知。我認為第一件事,就是先搞清楚「資料科學家≠商業資料分析師」,而詳細定義以及兩者的分工、定位,在〈什麼!?資料科學家≠商業資料分析師?〉則有更清楚的說明。

數據與業務的衝突與不受重視

在實務界當中,一種很常見的情況就是,公司不重視資料科學、甚至說,公司不重視資料(包含導入數據化的營運方針、以數據驅動的業務決策……等數據加值應用),或者公司的數據部門常常與業務部門衝突,更常見的是,業務部門不信任數據部門提供的資料分析結果(這一點,在〈你費那麼大勁做的數據分析,有用嗎?〉一文當中,道盡了數據人員的辛酸)。上述情形,在台灣,以及在非科技相關產業、與規模不大的公司而言尤是如此。

對於這一類困境,〈當產品經理遇到資料科學家〉與〈B2B企業如何成功推動Win/Loss Analysis數據分析?〉兩篇文章,提供了一些值得參考觀點。追根究柢,這類的衝突,不外乎是因為不同部門從各自的觀點來看事情,同時因為雙方對彼此的領域涉獵不足(數據人員不夠瞭解業務、業務人員不懂數學與程式編輯),又缺乏一位中間溝通橋樑,於是這類衝突就產生。

解決方法呢?設法提升自己對業務的理解程度,以及持續追蹤後續成果是否獲得改善,這也是一種try & error的精神實踐。當然我們知道,上述困境,可能是由於其他因素所導致(例如公司內部的政治角力),但可惜這不在本文的討論範圍。面對其他的原因,自然該有其他的應對方法來處理。但無論如何,作為一名專業且敬業的資料科學工作者,至少我們要知道什麼是我們能做的、該做的。

資料科學家的價值與定位

Create a Common-Sense Baseline First〉與〈So, How Many ML Models You Have NOT Built?〉這兩篇文章提到了不少「乍看之下違反常理,但實際上卻有其道理,且值得反思」的觀點,例如:
資料科學家的角色與價值其實不在於建造,而在於知所進退,知道何時不應該用Machine Learning或complex analytics,因為對問題解決沒有幫助。
或者在解決問題時,先別急著建模、而是先試試基本的探索性分析方法(Exploratory Analysis),複雜方法所得出來的結果,不見得比簡單的方法勝過多少,但所耗費調的時間與其他成本,往往更驚人,永遠記住Pareto principle

關於資料科學的總覽,以及資料科學家應具備的重要觀念,在本文就點到為止。下篇文章,我們將從工具、技術、求職、人才需求等面向繼續談起。