本篇文章是要記錄在機器學習當中常見的拆分資料的方法。作為資料科學工作者的我們都知道,選用合適的方式來將原始資料拆分成訓練組資料(Training set)、鑑效組資料(Validation set)、與測試組(Testing set),對於模型好壞有著重大的影響,而這一系列拆分資料的方法,即稱為「交叉驗證」(Cross-Validation, CV),同時也介紹如何使用 R 語言來執行常見的交叉驗證方法,包含:Holdout Method、K-Fold CV、Leave One out CV、Bootstrap。此外,文章後半段會針對時間序列資料的交叉驗證做介紹。
# K-Fold CV
library(modelr) # package for CV
library(magrittr) # package for pipe operator
# Partitioning and sampling based on a specific indices by modelr::resample 使用 resample 函數來取出 heights 資料集當中的前 10 筆並將其格式化為 data.frame
resample(heights, 1:10) %>% as.data.frame()
# generate a 20% testing partition, 20% validation partition and a 70% training partition by modelr::resample_partition 使用 resample_partition 來將 heights 資料集拆分成 20% 的測試集;20% 的驗證集;60% 的訓練集,並且在使用 lapply 將三者之格式通通化為 data.frame
resample_partition(heights, c(test = 0.2, validation = 0.2, train = 0.6)) %>%
# bootstrap
# 使用 modelr::bootstrap 對 heights 資料集進行100次的自助重抽
bootstrap(heights, 100)
# k-fold CV
# 使用 modelr::crossv_kfold 對 heights 資料集進行 10 等分的 k-fold CV
crossv_kfold(heights, 10)
# Monte Carlo CV
# 使用 modelr:: crossv_mc 對 heights 資料集隨機產生 100 份不同的 Holdout CV,並令每一份 Holdout CV 當中訓練資料集的比例為資料總數的 0.2
crossv_mc(heights, 100, test = 0.2)
# Leave-one-out CV
# 使用 modelr:: crossv_loo 對 heights 資料集進行 Leave-one-out CV
# {models} 當中的 {model-quality} 內含套件提供了一系列檢定模型配適偏誤的函數,可以用於檢測不同的資料拆分對模型的影響,概略說明如下:
# Three summaries are immediately interpretible on the scale of the response variable:
# rmse() is the root-mean-squared-error
# mae() is the mean absolute error
# qae() is quantiles of absolute error.
# Other summaries have varying scales and interpretations:
# mape() mean absolute percentage error.
# rsae() is the relative sum of absolute errors.
# mse() is the mean-squared-error.
# rsquare() is the variance of the predictions divided by the variance of the response.
# Predict Second Half
# Holdout CV
# K-Fold CV
為解決 Holdout Method 的困境,於是便有了 K-Fold CV,即對 k 個不同分組訓練的結果進行平均來減少變異,模型效能就不會對原始數據拆分過於敏感。最好的 k 要設定多少,並沒有一定答案,但是從經驗法則來看,資料量小的時候,k 可以設大一點,這樣訓練集占整體比例就比較大,但訓練的模型個數也增多,需要更多的運算時間;相對地,資料量大的時候,k 可以設小一點。
----- ----- ----- ----- ----- ----- ----- ----- ----- -----
# 時間序列資料的交叉驗證
除了上述介紹的方法之外,這裡要特別提及如何對時間序列(Time Series)資料進行交叉驗證。由於時間序列的預測模型,在企業界當中高度的應用性,所以自然得該瞭解一下這一塊。
由於時間序列資料可能具備潛在的自我相關性(即原始資料集當中的樣本分佈並非獨立的),因此上述的幾項傳統的交叉驗證方法,就會用應用上的限制。對此我們通常採用所謂的巢狀交叉驗證(Nested Cross-Validation,或者也稱為 Moving Block Cross-Validation),其算是 Leave-one-out CV 的一種變體,概念可以直接參考下方兩張圖。上圖為一般的 Leave-one-out CV;下圖為 Nested CV。而常見的兩種巢狀交叉驗證方法則有:「預測後一半」(Predict Second Half)與「日前向鏈」(Day Forward-Chaining)兩種。
# Predict Second Half
# Day Forward-Chaining
為了解決 Predict Second Half 的困境,一個常用的方法就是進行多次訓練、測試分割,然後計算這些分割上的誤差平均值,Day Forward-Chaining 即為該作法的實踐,其概念可參考下圖。值得留意的是,Day Forward-Chaining 當中的「Day」,是指進行 Forward-Chaining 方法時的基準時間單位,對於不同的時間序列資料及問題目標,我們當然可以代換成其他的日期或者時間單位。
----- ----- ----- ----- ----- ----- ----- ----- ----- -----
# R語言實作範例
以下使用先介紹 {forecastHybrid} 套件當中的「tsPartition」函數來進行 Day Forward-Chaining CV,並以「AirPassengers」資料集做示範:
# 以最早的 15 筆資料開始作為訓練集,接著後 3 筆做為測試集。每一次的迭代都會將前一次的測試集資料納入訓練集,並以接下來新的 3 筆資料作為新一期的測試集。其中,若將 rolling 參數設定為 True,則每一期迭代所產生的新的訓練集不會遞增,都維持 15 筆。
tsPartition( AirPassengers, rolling = F, windowSize = 15, maxHorizon = 3)
# 上述做法僅將原始資料拆分成訓練集與測試集。但如果我們要將訓練集再進一步切割出驗證集呢?可以使用以下作法:
Apt <- tsPartition( AirPassengers, rolling = F, windowSize = 15, maxHorizon = 3)
# 呼叫第 20 次迭代的訓練集
----- ----- ----- ----- ----- ----- ----- ----- ----- -----