跳到主要內容

閱讀|《Data Science for Business》&《R for Data Science》閱讀心得

本篇文章主要是要介紹兩本書的閱讀心得,分別是《資料科學的商業運用》(Data Science for Business),以及《R資料科學》(R for Data Science)。兩者皆是由歐萊禮(O'REILLY)出版,在台灣皆有繁體中文的紙本翻譯書。


Photo source :  博客來


首先來談《資料科學的商業運用》。這本書是我在資料科學領域啟蒙之後的第一本工具書,該書的成書年代可溯及至 2013 年,台灣的繁體中文的翻譯書則是在 2016 出版。在當時的出版界,與資料科學、機器學習、演算法、Python 程式學習……等等主題有關的中文書,還沒有像現在這麼氾濫,尤其以資料科學這個專門領域主題而言,在當時算是少數深入淺出的教科書。

正如其書名,該書的重點放在「如何透過資料科學的途徑來解決商務上的問題」。許多資料科學、數據分析的專門從業人員應當都能體會,在企業導入資料科學解決方案最常見的問題會在於「如何定義問題(或者說「商業目標」)」或者更進一步地說:「如何將商業問題定義成可透過資料來解決的問題?」。以及定義問題之後,各個資料科學工作環節的核心原則(例如:如何避免模型 over-fitting、如何評估模型成效)。而本書則以此為出發點,提供了不少指導方針。

作為資料科學的專門工具書,本書當然也包含了不少演算法的應用,但是演算法並非本書的重點。演算法的選用以及參數調教,只是整個資料科學工作流程當中的一部份,在業界當中,上述工作可能會由專門的「機器學習工程師」來執行(當然啦……這裡是指公司有完整且分工明確的資料科學團隊的情況下而言,實際情況還是得看公司的團隊組成及分工)。再者,過分執著於演算法上,可能會陷入「當你手上握著鐵鎚時,全世界看起來都像是釘子。」(If all you have is a hammer, everything looks like a nail.)的窠臼裡面。這也是資料科學家應該避免的。

該書的一大優點是,裡頭並沒有使用任何程式語言作為範例。同樣地,關於數學的演算法、機率、統計公式,該書也已經盡可能地採用文字說明搭配圖表的方式來呈現。但我不會說這是一本毫無任何資料科學背景知識都能無痛閱讀的科普書。如果你不具備任何背景知識,而想要認識資料科學的相關技術及應用的話,那您可能比較適合去看這一本:《文科生也看得懂的資料科學》或者《認識資料科學的第一本書

本書的主要目標讀者包含:
  1. 將與資料科學家合作、管理資料科學導向專案、或是將投資於資料科學新興事業的商業人士
  2. 將實行資料科學解決方案的開發人員
  3. 積極求知的資料科學相關從業人員
正如我前面所說,該書的定位是教科書、工具書,而非科普書,但這並不影響它的易讀性。而對於還在求學階段的同好而言,我認為上述三本書都十分適合作為入門書籍。


另一本要介紹的書,則是《R資料科學》。該書主要介紹 R 語言最廣為人知道資料科學套件組合 tidyverse,並搭配 R Markdown 來呈現工作成果。雖然書名提到的是「資料科學」,但事實上,這本書的內容主要著重於「資料分析」。

我們知道,R 語言具備非常強大且完整的資料科學工具生態群,對於專門統計分析、機器學習演算法,幾乎都有專門的開源套件能夠使用。但本書甚少提到上述那些演算法的相關套件。而對於 tidyverse 有點瞭解的朋友們會知道,tidyverse 本身所包含的套件組合,主要集中在「資料前處理」(Data preprocessing)以及最後的視覺化呈現。如果你是想瞭解如何透過 R 語言來實作機器學習的讀者,那麼這本書並非您的首選。

但相對地,這本書對於「如何探索資料」有非常深厚的著墨。我們知道,一個成功的資料科學專案,最重要的環節其實是在資料前處理,這也包含了「探索性資料分析」(Exploratory Data Analysis, EDA)。透過不斷地梳理、探索資料,讓工作團隊更加地瞭解隱含在資料內的資訊,這個步驟也十分有助於前一本書所提到的重點:「如何定義問題?」,同時也替後續的建模工作打好健全的基礎。配合 tidyverse 的運用,該書將這個主題完善地呈現。該書有開源的網頁版,對於不想入手紙本書的讀者而言,是非常友善的選擇,我本身即是透過網頁版來學習。

#為什麼挑選這兩本書?

這兩本書是我當初決心要投入資料科學工作領域時的啟蒙工具書。正如我在〈不是工程師的工程師〉與〈R 初心者筆記 其一〉這兩篇文章所提到的,由於我並非出身於資訊專業本科,因此,對我而言,R 是非常友善的入門工具。而《資料科學的商業運用》則是讓我在已具備商務經驗以及統計學的基礎下,進一步瞭解資料科學這門專業。雖然我在轉職後已經改以 Python 為主要開發工具,這兩本書依舊是我認為十分受用的工具書。