為美好的數據獻上祝福！

ML｜機器學習當中的樣本不均衡問題

# 前言「機器學習當中的樣本不均衡問題」，這是我進入資料科學業界之後的，就首先遇到的難題，但這個其實算是業界當中的老生常談。最經典的例子就是，如何從大量的信用卡用戶當中，辨識出潛在的可能逾期繳款的卡戶、或者辨識出可能是被盜用的異常信用交易活動，簡單來說，就是特定類別樣本數量、與其他主要類別的樣本數量，具有懸殊的比例差異的情況。的在真實世界當中，類似情境的問題比比皆是，而這篇文章要介紹的，就是面對這類型的問題時，需要注意的眉角，以及一些可用的解決方案。 # 選用合適的評估指標面對不均衡的資料集，若處理的問題是分類型的問題，首先需要注意的就是模型的評估指標。Accuracy 雖然是一個最常見的評估指標，但是在樣本分佈比例懸殊的情況下，模型的 Accuracy 結果往往容易誤導人。這種情況下，多方參考「ROC 曲線」（Receiver Operating Characteristic Curve）與「曲線下面積」（Area under Curve，AUC）、「PR 曲線」(Precision-Recall Curve)、F1-Score 等指標，會是比較合適的做法。另一種也是從評估指標著手的方法，是根據「混淆矩陣」（Confusion Matrix）上的四種分類結果，賦予不同的效益或者成本係數，藉此建立一組成本函數，以該函數的最終結果作為評估模型的指標。這種做法也就是所謂的「成本導向的分類方法」（Cost-Based Classification，或稱 Cost-Sensitive Classification ），相似的做法，也可以直接將模型當中所使用的懲罰函數，代換成類似成本函數，來達到相同的目的。事實上，在實務界當中，無論是哪一種類型的機器學習或者深度學習問題，通常都不會只看單一指標，往往會綜合參考諸多指標來評估模型成效。平衡資料的二元分類 1：選擇正確的衡量指標 – David's Perspective 深入介紹及比較ROC曲線及PR曲線. | by CHEN TSU PEI | NLP-trend-and-review | Medium Cost-Sensitive Learning for Imbalanced Classification # 調整樣本結構與抽樣方法既然原始資料的樣本比例懸殊，那麼我們就從調整資料的樣本比例來著手。最簡單...

閱讀完整內容

為美好的數據獻上祝福！

搜尋此網誌

發表文章

ML｜機器學習當中的樣本不均衡問題