為美好的數據獻上祝福！

發表文章

目前顯示的是 8月, 2018的文章

閱讀 |《超負荷時代》閱讀心得

《超負荷時代：即將崩潰的流通世界》 DOOR to DOOR: The Magnificent, Maddening, Mysterious World of Transportation 自從開始有閱讀習慣之後，總會在實體或網路書店尋寶時，留意是否有與自己學科或工作背景相關的科普書籍。我指的不是教科書或技術手冊，而是針對某個特定主題的知識普及雜談，不用什麼預設知識門檻便能閱讀的那種。大多數你能想得到的科系，都能找得到類似的著作，但偏偏我的科系比較冷門少見……一直到去年，我在書店看到這一本書的時候，我一邊翻閱書籍，一邊在心頭吶喊「總算讓我找到一本專門談運輸物流的書了!!!!」（感動握拳拭淚本書的作者並非相關領域的學者或者業界人士，而是一位得過普立茲獎的記者。這一點很明顯地可以從該書的章節命名來看，作者透過智慧型手機、鋁罐、咖啡、披薩、與機器人等等辭彙開始延伸，輔以大量報導文獻及數據，漫談日復一日維持人們生活的運輸物流系統，究竟有多麼「不簡單」（尤其中文書名，我相信物流基層從業人員、以及超商超市店員，應該非常有感......），最後再談到本書的核心探討議題「運輸的最後一哩路」（在教科書稱為「及門運輸」「 door to door 」）這種題材，如果是教科書，那大概就以陸海空等空間區別，或者以載具之不同來劃分了。比起後者，前者的內容編列方式有趣多了不是嗎？本書的討論範疇都是美國本土的交通運輸物流，故某些章節所提到的觀點與論述，其實十分值得讀者去與其居住的城市、地區、國家比較。該書的成書年代還算新（原文著作在2016年出版），即便是有關新興運輸科技的內容（例如智慧駕駛與無人車），也不會有時代落差。作為一位不稱職的運輸人，真心推薦任何想瞭解當代運輸物流運作體系的朋友們，來看看這本書。題外話，我讀完之後，例行性地去GOOGLE了一下相關心得。一樣是原文著作在2016出版，繁體中文版本在2017出版的書籍，我看的前一本書《大數據的傲慢與偏見》這種時下熱門題材書籍，網路上的書評、心得、與簡介一狗票，而關於這一本的心得……真的少得可憐啊 XD（也呼應到，平時沒啥人會注意到交通運輸物流，如果有，那通常是出包的時候 Orz -----------------------（下收內容節錄） ----------------------- ...

閱讀完整內容

二轉人生 | 淺談灰色理論

最早知道灰色理論這玩意是在大學部，在選課系統上面看到外系的碩士班有開授專門課程。當時我一度把灰色理論跟模糊理論搞混（你不覺得這兩樣東西，光是聽起來就有 87 成像嗎？）直到我看到開授這門課的老師，在另一學期也開一門「模糊理論與應用」，我才知道原來這兩樣是不同的東西。雖然說是不同的玩意，但是其應用上其實十分相近。廣義而言，該兩者都能用來處理「資訊不確定」（或者資訊不充足）情況下的問題分析，相關的應用方法包含關聯性分析、資料分群、預測等等。應用領域也十分廣泛，諸如：自然科學、社會科學、工程技術、生物醫學、商業決策、財務金融、乃至於教育、心理等領域，皆可看到其應用。我們可以透過下方表格簡單知道灰色理論、模糊理論、與機率統計三者的差異： Grey System Probability Fuzzy 核心內涵小樣本& 資訊不確定大樣本& 資訊不確定認知不確定演算依據原始資料的資訊覆蓋程度機率分佈隸屬函數演算方法生成（Generating）統計取邊界值特點少量樣本即可運算樣本數量愈大愈好經驗數據的豐富程度樣本要求允許任意分佈常態分佈依據模糊函數而定目標現實規律呈現歷史統計規律認知表達 1. 針對只需要小量樣本即可進行運算的這項特點，對於許多外部分析單位而言，是一件好消息。有時候公司或者政府單位雖然委託外部分析人員進行分析，但是資料卻給得不齊全或者不乾脆，請案主提供更完整、資料的資料時，還會被各種推託或者不重視（當然這還是要看情況）。而在這種情況下，又要對上級有所交代的時候，灰色理論就是一個可用的分析方法。（但還是要評估問題類型，也不見得所有問題都能透過灰色理論而有所解） 2. 關於「灰預測」，看過它的演算概念及過程之後覺得......啊這不就是一種移動平均法的變形嗎？只是透過看似複雜的數學轉換讓它看起來好像很高深（這裡得澄清一下，我不是決策科學領域的專家，這裡只是依照我過去所學印象，所提出的看法。若有在該領域更專業人士或前輩有不同的看法，歡迎批評指教） 3. 承第二點，「灰預測」的演算步驟當中，有一個檢定其「精確度」的過程（「灰預測」方法當中，依據採納樣本的不同，所得...

閱讀完整內容

二轉人生 | 淺談系統模擬

因為重回校園再進修的緣故，意外地接觸到「系統模擬」（ Simulation ）這門技術。先前的求學經驗當中，靜態的數量規劃與分析技術是接觸了不少，偏偏動態規劃與模擬這方面的課程就沒啥接觸。系統模擬（ Simulation ），可以泛指根據一項或多項特定目的，透過電腦建構數學模型來描繪真實世界之情境，並以模擬結果的作為決策輔助參考的技術其亦為作業研究的一項重要分歧。這樣的描述可能還有點模糊，不妨參考以下簡單舉例：以每半小時為時間切割單位，模擬一家速食店在一個月當中的來客數、餐點銷售數量、以及速食店對訂單的消化量，以作為最佳化人員排班及物料採購規劃的參考。以每半小時為時間切割單位，模擬一條公車路線的各站牌的等候人數、上下車人數、班次數量、發車時間間隔等等。以作為最佳化發車班距與路線調整的參考依據。透過上述的例子，讀者們應該可以發現，模擬的重點在於一定時間與空間狀態的條件下，系統內所發生的變化，這也是之所以為什麼說系統模擬是動態分析技術的原因。就實務上，靜態的分析技術、與動態的模擬技術，時常是互補的，都是使用者在進行決策時的一項支援工具。相關介紹我就不多提了，在這裡僅簡單聊聊這學期的修課心得： # 目的其實這該是一個通用性的法則：你總得先清楚明白你是為了什麼目的而要來建一個模擬專案。從瞭解目的，到進一步拆解問題架構，然後才是轉化成你所使用的模擬工具的樣子。 # 成本對於愈龐大、愈複雜的系統而言，要建構出夠全面、詳細的模擬系統，是很花時間且很累人的一件事。如果用傳統靜態的數量方法再搭配專家建議，就能夠達成所要的目的，那何必大費周章去刻一個模擬系統出來？又或者，你原本就擅長某項程式語言或其他模擬工具，在不影響目標達成的情況下，又何必從頭再去學另一套模擬工具？ # 工具瞭解目的與成本之後，再來就可以來思考，有哪些模擬工具或技術可以使用。現行所能找得到的系統模擬專門軟體非常多，光是 Open Source 的模擬軟體，就能用來建構非常強大的模擬專案了，更別提商用的套裝模擬軟體。此外，使用者也該根據模擬的目、專業性、成本等等因素，而選用不同的模擬軟體。 # 融會貫通作為一名未來的資料科學工作者，上述的三項心得重點，完全能套用在資料科學的專案工作上。這也是我重回校園後的一項習慣，就是不斷地思考...

閱讀完整內容

雜談 | 邁向資料科學家之路其二

在上一篇文章當中，我們帶各位總覽資料科學的樣貌、以及資料科學家應具備的重要觀念。在這篇文章當中，我們將把焦點放在工具、技術、求職、人才供需等面向上。【工具 & 技術】 Programming 事實上，無論是人工智慧、商業智慧，或者統計、系統模擬、作業研究等領域，坊間皆能找到現成軟體與運算平台，多數甚至具備設計良好的圖形化使用者介面，且運算功能強大，資料科學家或者分析人員只要對問題以及數學方法有足夠的瞭解，便能透過這些現成的工具來完成任務。〈寫程式是資料分析的必要技能〉一文，則提出了不同的看法。內文提及，學習寫程式並不是要變成軟體工程師，而是知道它在什麼情境下可以派上用場，提高工作效率。現成套裝軟體或許強大，但總會有無法透過一套工具打遍天下的情況發生，這種時候，程式語言則提供了解決這類困境的彈性。 SQL & 資料工程同樣是呼應「提高工作效率」這一點，〈資料科學家為何需要了解資料工程〉與〈為何資料科學家需要學習 SQL 〉則是說明了資料工程以及 SQL 對資料科學家的重要性。前文以資料科學家平常的一天，來描述少了資料工程支援的資料科學家，會有多麼彆腳。而 SQL 讓資料科學家可以專注在需要「什麼」資料而非要「怎麼」取得。當中的核心概念，不外乎是要將各種工具互補使用，來使工作效率最佳化。 R & Python 談過程式設計、 SQL 、資料工程之後，我們終於要來談 R 與 Python 。但這大概是最不缺乏說明的部分，坊間媒體、廣告、以及推廣機構都已經有了大量的介紹，而且一篇筆一篇詳盡，這裡只放上這一篇〈從套件的發展談 R 與 Python 〉，提供給還在游移不定該選擇哪種語言先學的初學者們參考。數學 & 統計前述的部分，主要都還是討論在資訊工具的使用，但是這些資訊工具要發會功能，除了要對問題有所足夠理解之外，最重要是能夠將問題轉譯成數學語言，也就是硬底子的數學及統計相關方法論。這是一個龐大的知識與技術體系，〈資料科學與幾個「分析」相關領域的比較〉一文則為我們提供了簡明的分類參考。【職場】這個層面，我想了好久該放哪些內容上來，經...

閱讀完整內容

為美好的數據獻上祝福！

發表文章

閱讀 |《超負荷時代》閱讀心得

二轉人生 | 淺談灰色理論

二轉人生 | 淺談系統模擬

雜談 | 邁向資料科學家之路 其二

雜談 | 邁向資料科學家之路其二