# 前言 「機器學習當中的樣本不均衡問題」,這是我進入資料科學業界之後的,就首先遇到的難題,但這個其實算是業界當中的老生常談。最經典的例子就是,如何從大量的信用卡用戶當中,辨識出潛在的可能逾期繳款的卡戶、或者辨識出可能是被盜用的異常信用交易活動,簡單來說,就是特定類別樣本數量、與其他主要類別的樣本數量,具有懸殊的比例差異的情況。的在真實世界當中,類似情境的問題比比皆是,而這篇文章要介紹的,就是面對這類型的問題時,需要注意的眉角,以及一些可用的解決方案。 # 選用合適的評估指標 面對不均衡的資料集,若處理的問題是分類型的問題,首先需要注意的就是模型的評估指標。Accuracy 雖然是一個最常見的評估指標,但是在樣本分佈比例懸殊的情況下,模型的 Accuracy 結果往往容易誤導人。這種情況下,多方參考「ROC 曲線」(Receiver Operating Characteristic Curve) 與「曲線下面積」(Area under Curve,AUC)、「PR 曲線」(Precision-Recall Curve)、F1-Score 等指標,會是比較合適的做法。 另一種也是從評估指標著手的方法,是根據「混淆矩陣」(Confusion Matrix)上的四種分類結果,賦予不同的效益或者成本係數,藉此建立一組成本函數,以該函數的最終結果作為評估模型的指標。這種做法也就是所謂的「成本導向的分類方法」(Cost-Based Classification,或稱 Cost-Sensitive Classification ),相似的做法,也可以直接將模型當中所使用的懲罰函數,代換成類似成本函數,來達到相同的目的。事實上,在實務界當中,無論是哪一種類型的機器學習或者深度學習問題,通常都不會只看單一指標,往往會綜合參考諸多指標來評估模型成效。 平衡資料的二元分類 1:選擇正確的衡量指標 – David's Perspective 深入介紹及比較ROC曲線及PR曲線. | by CHEN TSU PEI | NLP-trend-and-review | Medium Cost-Sensitive Learning for Imbalanced Classification # 調整樣本結構與抽樣方法 既然原始資料的樣本比例懸殊,那麼我們就從調整資料的樣本比例來著手。最簡單