前兩篇文章當中,筆者分別提到了時間序列資料的季節週期因子以及趨勢因子,在不同產業以及不同供應鏈環節的需求預測應用實務。而這篇文章,我們就要來談談對基礎時間序列資料解構 ( Time Series Decomposition )的最後一項要素:殘差(Residual),以及在概念上很容易跟其搞混的玩意:包含離群值(Outlier)、異常值(Anomaly)、以及事件(Event)。 # 殘差? 離群值? 異常值? 事件? 造成殘差的原因很多,有些可能事出有因、有些可能剛好只是隨機偏誤。而不同類型的時間序列資料,其隱含的資訊自然也不同。這裡就先簡要說明剛剛提到的幾個觀念詞彙的意涵: 殘差:就是對時間序列資料進行解構,拆離了季節週期以及趨勢項後剩下來的玩意。 離群值:也被稱為極端值,就是與大多數樣本差異甚大的樣本,本身是尚未被拆解的原始資料。 異常值:顧名思義就是異常的樣本。本身也是尚未被拆解的原始資料。 事件:泛指可能導致時間序列資料當中出現離群值、異常值、與殘差的不特定原因。 綜合上述釋義。離群值、異常值、與殘差都是顯示在時間序列資料上的「結果」;而事件則是造成這些結果的原因。而殘差則是離群值與異常值當中 神聖不可分割 的一部份。進一步來談談前三者的關聯,先講講離群值,如果某筆資料被歸納為離群值,那想必是因為該筆資料達成了某些特定條件,使得該資料與其他樣本有很大的差異。 就統計學上經常使用的界定方式為四分位距的 盒狀圖判定方法 、或者是平均數或中位數正負 N 個標準差之類的作法來的取判定門檻,超出這個門檻的就是離群值。 在許多情況下,離群值經常也代表是異常值,但這樣的等價關係並非絕對 。例如:以機器設備的儀表資料而言(例如氣壓計、溫度計、溼度計、震度感測器、聲聞接收器),通常都會有符合其物理意義含的離群值判定範圍,要是出這個範圍,那就真的是異常了。但是在需求預測的時間序列資料上,就不一定了,因為某些波動較大的需求趨勢變動,可能都是事出有因的,而使得某幾筆資料雖落入離群值的範圍當中,但是不代表這些資料就不正常。 這裡指的情況是指從資料面上看起來異常,但是對應到業務面其實是正常的情況。有了上述概念之後,接著才能來談殘差。因為離群值跟異常值,通常與大多數的樣本有著很大的差異。因此,假若某條時間序列資料當中包含了異常值,而我們對整段原始序列資料進行解構之後,通常那一筆異常值資