跳到主要內容

雜談 | 邁向資料科學家之路 其二

在上一篇文章當中,我們帶各位總覽資料科學的樣貌、以及資料科學家應具備的重要觀念。在這篇文章當中,我們將把焦點放在工具、技術、求職、人才供需等面向上。


【工具 技術】

Programming

事實上,無論是人工智慧、商業智慧,或者統計、系統模擬、作業研究等領域,坊間皆能找到現成軟體與運算平台,多數甚至具備設計良好的圖形化使用者介面,且運算功能強大,資料科學家或者分析人員只要對問題以及數學方法有足夠的瞭解,便能透過這些現成的工具來完成任務。

寫程式是資料分析的必要技能〉一文,則提出了不同的看法。內文提及,學習寫程式並不是要變成軟體工程師,而是知道它在什麼情境下可以派上用場,提高工作效率。現成套裝 軟體或許強大,但總會有無法透過一套工具打遍天下的情況發生,這種時候,程式語言則提供了解決這類困境的彈性。

SQL & 資料工程

同樣是呼應「提高工作效率」這一點,〈資料科學家為何需要了解資料工程〉與〈為何資料科學家需要學習 SQL〉則是說明了資料工程以及 SQL 對資料科學家的重要性。前文以資料科學家平常的一天,來描述少了資料工程支援的資料科學家,會有多麼彆腳。而 SQL 讓資料科學家可以專注在需要「什麼」資料而非要「怎麼」取得。當中的核心概念,不外乎是要將各種工具互補使用,來使工作效率最佳化

R & Python

談過程式設計、SQL、資料工程之後,我們終於要來談RPython。但這大概是最不缺乏說明的部分,坊間媒體、廣告、以及推廣機構都已經有了大量的介紹,而且一篇筆一篇詳盡,這裡只放上這一篇〈從套件的發展談 R Python〉,提供給還在游移不定該選擇哪種語言先學的初學者們參考。

數學 統計

前述的部分,主要都還是討論在資訊工具的使用,但是這些資訊工具要發會功能,除了要對問題有所足夠理解之外,最重要是能夠將問題轉譯成數學語言,也就是硬底子的數學及統計相關方法論。這是一個龐大的知識與技術體系,〈資料科學與幾個「分析」相關領域的比較〉一文則為我們提供了簡明的分類參考。


【職場】

這個層面,我想了好久該放哪些內容上來,經過一翻歸納後,我想還是談在準備資料科學與工程相關工作面試時的一些實用建議,以及資料科學、資料工程、資料分析等專業工作者,在就業供需情況。

工作日常

事實上,在看過上述三個面向之後,我們應當都能描述出資料科學家的工作內容大概長什麼樣子,但我們依舊來看點更具體的案例。〈數據分析的一週工作日程〉一文記錄了作為資料分析師的一週工作概要,裡頭除了摘要作者的主要工作項目的時間花費比例之外,同時也提出了作為資料分析師的工作心得:工具其次、瞭解業務內容與貫徹任務執行才是重點。

準備面試

如何面試資料科學家? (How to Interview Data Scientist?)〉一文摘譯了一名國外的資料科學家,對於如何面試一個資料科學家的方法以及其優缺點比較,內文的比較方法不僅詳盡且有趣,最後他提及面試資料科學家的方式,也很適合用來面是大部分的開發人員。而我們自然也能透過這些面試方式來回推,做為求職者的我們,該如何準備面試。一樣是探準備面試,〈想成為資料科學家?來挑戰 GoogleFBApple 等六間公司人工智慧最新面試題〉一文也幫大家彙整了幾間全球科技大廠的資料科學工作面試問題。

就業供需

這個部分要從台灣以及國外就業市場來談。我們都知道,包括Data ScienceAIBig DataIoT等等當紅的資訊科技應用,都是從歐美紅到台灣來的。於是我們先來看看國外。〈IBM Predicts Demand For Data Scientists Will Soar 28% By 2020〉一文提出了多項綜合比較數據,說明了美國資料科學相關人才的年齡、年資、與薪資水準分布。〈Quantifying the current demand for data scientists〉則整理了更多國家的資料科學相關人才的供需現況。

台灣的部分,我們可以直接參考經濟部委託工研院產業經濟與趨勢研究中心調查的〈2018-2020重點產業人才需求推估調查〉「資料服務產業」的那一項。這份報告除了顯示台灣國內資料科學相關人才的需求分布之外,更列出企業在招募與應用相關人才的原因及構成比例。

而無論台灣國內或者國外,這些報導與研究報告的共通點都是:資料科學專業人才需求仍呈現上漲趨勢,且供不應求。其次,就是資料科學家、應用領域專家、資料工程師、資料分析師、軟體工程師等等相關工作,彼此之間是呈現一個「層級遞進」的關聯性。幾乎很少有大學或者碩士畢業的社會新鮮人,一進入職場就擔任「資料科學家」,他們大多得先從事過軟體工程、數據工程、商業分析、等等工作,從中累積 Domain KnowledgeAnalysisProgramming 等知識技術與經驗,才能成就一名資料科學家。這一點也呼應本系列第一篇文章所提到的「沒有速成的資料科學家」這件事。

總結

我還是得說,這兩篇文章所分享的東西,在網路上隨意Google,都能找到類似的探討、分析、報導文章。而這兩篇文章的用意,是提供一個較有系統性的知識統整,除了是作為我自己的學習記錄,也供和我有一樣目標的同好參考。