本篇文章主要是要介紹兩本書的閱讀心得,分別是《 資料科學的商業運用 》(Data Science for Business),以及《 R資料科學 》(R for Data Science)。兩者皆是由歐萊禮(O'REILLY)出版,在台灣皆有繁體中文的紙本翻譯書。 Photo source : 博客來 首先來談《資料科學的商業運用》。這本書是我在資料科學領域啟蒙之後的第一本工具書,該書的成書年代可溯及至 2013 年,台灣的繁體中文的翻譯書則是在 2016 出版。在當時的出版界,與資料科學、機器學習、演算法、Python 程式學習……等等主題有關的中文書,還沒有像現在這麼氾濫,尤其以資料科學這個專門領域主題而言,在當時算是少數深入淺出的教科書。 正如其書名,該書的重點放在「如何透過資料科學的途徑來解決商務上的問題」。許多資料科學、數據分析的專門從業人員應當都能體會,在企業導入資料科學解決方案最常見的問題會在於「 如何定義問題 (或者說「商業目標」) ? 」或者更進一步地說:「 如何將商業問題定義成可透過資料來解決的問題? 」。以及定義問題之後,各個資料科學工作環節的核心原則(例如:如何避免模型 over-fitting、如何評估模型成效)。而本書則以此為出發點,提供了不少指導方針。 作為資料科學的專門工具書,本書當然也包含了不少演算法的應用,但是演算法並非本書的重點。演算法的選用以及參數調教,只是整個資料科學工作流程當中的一部份,在業界當中,上述工作可能會由專門的「機器學習工程師」來執行(當然啦……這裡是指公司有完整且分工明確的資料科學團隊的情況下而言,實際情況還是得看公司的團隊組成及分工)。再者,過分執著於演算法上,可能會陷入「 當你手上握著鐵鎚時,全世界看起來都像是釘子。 」( If all you have is a hammer, everything looks like a nail. )的窠臼裡面。這也是資料科學家應該避免的。 該書的一大優點是,裡頭並沒有使用任何程式語言作為範例。同樣地,關於數學的演算法、機率、統計公式,該書也已經盡可能地採用文字說明搭配圖表的方式來呈現。但我不會說這是一本毫無任何資料科學背景知識都能無痛閱讀的科普書。如果你不具備任何背景知識,而想要認識資料科學的相關技術及應用的話,那您可能比較適...