對信息準則的認識

對信息準則的認識

Knowledge of information standards

【摘要】爲了在一組可供選擇的模型中選取一個最優的模型,常常需要對統計模型的擬合程度進行衡量,本文介紹了幾種衡量統計模型擬合優良性信息準則標準,通過對其概念的一般性認識可以幫助我們學習模型選擇方面的知識。

【關鍵詞】信息準則;AIC;BIC

AbstractIn order to select theoptimal one in a set of alternative model, we need to measure the fittingdegree of statistical model. This paper introduces several informationcriterion to measure the goodness of statistical models, through the generalunderstanding of the concept can help us learn the knowledge of modelselection.

Keywords:Information criterion, AIC,BIC

1. 引 言

常地,對一堆數據進行建模的時候,特別是分類和迴歸模型,我們有很多的變量可供使用,選擇不同的變量組合可以得到不同的模型,例如我們有5個變量,2的5次方,我們將有32個變量組合,可以訓練出32個模型。但是哪個模型更加的好呢?本文介紹了幾種常見的信息準則如AIC、BIC等,這幾種信息準則已經被廣泛的應用在模型選擇中,通過對模型擬合度的分析可以幫助我們選擇最佳模型方案。

2. 幾種常見的信息準則

2.1. AIC信息準則(akaike informationcriterion

2.1.1 基本概念

AIC信息準則,即Akaike information criterion,簡稱AIC,是衡量統計模型擬合優良性的一種標準,是由日本統計學家赤池弘次創立和發展的。赤池信息量準則建立在熵的概念基礎上,可以權衡所估計模型的複雜度和此模型擬合數據的優良性。

2.1.2 AIC基本內容

①在一般的情況下,AIC可以表示爲:

AIC=(2k-2L)/n      (1)

它的假設條件是模型的誤差服從獨立正態分佈,其中:k是所擬合模型中參數的數量,L是對數似然值,n是觀測值數目。

AIC的大小取決於L和k。k取值越小,AIC越小;L取值越大,AIC值越小。k小意味着模型簡潔,L大意味着模型精確。因此AIC和修正的決定係數類似,在評價模型是兼顧了簡潔性和精確性。

②讓n爲觀察數,RSS爲剩餘平方和,那麼AIC變爲: 

AIC=2k+nln(RSS/n)        (2)

表明增加自由參數的數目提高了擬合的優良性,AIC鼓勵數據擬合的優良性,但是儘量避免出現過度擬合(Overfitting)的情況。所以優先考慮的模型應是AIC值最小的那一個。赤池信息準則(AIC)的方法是尋找可以最好地解釋數據但包含最少自由參數的模型。

2.1.3 AIC相關內容

①AICc與AICu:在樣本小的情況下,AIC轉變爲AICc:

AICc=AIC+[2k(k+1)/(n-k-1)        (3)

當n增加時,AICc收斂成AIC。所以AICc可以應用在任何樣本大小的情況下。

把AICc定義爲:

AICc=ln(RSS/n)+(n+k)/(n-k-2)        (4)

他們提出的另一個緊密相關指標爲AICu:

AICu=ln[RSS/(n-k)]+(n+k)/(n-k-2)        (5)

②QAIC: QAIC(Quasi-AIC)可以定義爲:

QAIC=2k-1/c*2lnL        (6)

其中:c是方差膨脹因素。因此QAIC可以調整過度離散(或者缺乏擬合)。

在小樣本情況下, QAIC表示爲:

QAICc=QAIC+2k(2k+1)/(n-k-1)        (7)

2.2. BIC信息準則Bayesian Information Criterion

貝葉斯信息準則,也稱爲BayesianInformation Criterion(BIC)。

2.2.1 理論概述

貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分,是在不完全情報下,對部分未知的狀態用主觀概率估計,然後用貝葉斯公式對發生概率進行修正,最後再利用期望值和修正概率做出最優決策。

2.2.2 基本思想

貝葉斯決策理論方法是統計模型決策中的一個基本方法,其基本思想是:

已知類條件概率密度參數表達式和先驗概率

利用貝葉斯公式轉換成後驗概率

根據後驗概率大小進行決策分類

2.2.3公式

設D1,D2,……,Dn爲樣本空間S的一個劃分,如果以P(Di)表示事件Di發生的概率,且P(Di)>0(i=1,2,…,n)。對於任一事件x,P(x)>0,

(1)如果我們已知被分類類別概率分佈的形式和已經標記類別的訓練樣本集合,那我們就需要從訓練樣本集合中來估計概率分佈的參數。在現實世界中有時會出現這種情況。(如已知爲正態分佈了,根據標記好類別的樣本來估計參數,常見的是極大似然率和貝葉斯參數估計方法);

(2)如果我們不知道任何有關被分類類別概率分佈的知識,已知已經標記類別的訓練樣本集合和判別式函數的形式,那我們就需要從訓練樣本集合中來估計判別式函數的參數。在現實世界中有時會出現這種情況。(如已知判別式函數爲線性或二次的,那麼就要根據訓練樣本來估計判別式的參數,常見的是線性判別式和神經網絡);

(3)如果我們既不知道任何有關被分類類別概率分佈的知識,也不知道判別式函數的形式,只有已經標記類別的訓練樣本集合。那我們就需要從訓練樣本集合中來估計概率分佈函數的參數。在現實世界中經常出現這種情況。(如首先要估計是什麼分佈,再估計參數。常見的是非參數估計)。

    2.2.4 決策理論

    貝葉斯決策理論方法是統計模式識別中的一個基本方法。貝葉斯決策判據既考慮了各類參考總體出現的概率大小,又考慮了因誤判造成的損失大小,判別能力強。貝葉斯方法更適用於下列場合:

(1) 樣本(子樣)的數量(容量)不充分大,因而大子樣統計理論不適宜的場

合。

(2)試驗具有繼承性,反映在統計學上就是要具有在試驗之前已有先驗信息

的場合。用這種方法進行分類時要求兩點:第一,要決策分類的參考總體的類別數是一定的。例如兩類參考總體(正常狀態Dl和異常狀態D2),或L類參考總體D1,D2,…,DL(如良好、滿意、可以、不滿意、不允許、……);第二,各類參考總體的概率分佈是已知的,即每一類參考總體出現的先驗概率P(Di)以及各類概率密度函數P(x/Di)是已知的。顯然,0≤P(Di)≤1,(i=l,2,…,L),∑P(Di)=1。

對於兩類故障診斷問題,就相當於在識別前已知正常狀態D1的概率戶(D1)和異常狀態0:的概率P(D2),它們是由先驗知識確定的狀態先驗概率。如果不做進一步的仔細觀測,僅依靠先驗概率去作決策,那麼就應給出下列的決策規則:若P(D1)>P(D2),則做出狀態屬於D1類的決策;反之,則做出狀態屬於D2類的決策。例如,某設備在365天中,有故障是少見的,無故障是經常的,有故障的概率遠小於無故障的概率。因此,若無特B,j明顯的異常狀況,就應判斷爲無故障。顯然,這樣做對某一實際的待檢狀態根本達不到診斷的目的,這是由於只利用先驗概率提供的分類信息太少了。

2.3. HQ信息準則

在信息準則法中,除了上述最常用的兩個信息準則之外,還有一些其他的信息準則如HQ等。

HQ準則的基本思路與AIC和BIC基本一致,其區別僅僅在於對新增參數損害預測精度的懲罰力度不同。HQ的具體準則公式爲:

            HQ=(ee/n)*((ln(n))^(2k/n))    (8)

其中: ee爲殘差平方和,k爲待估計參數的個數。

一般地,不同的準則或統計量會選擇出相異的最優滯後期數。這時可根據“多數通過”原則,選擇多數方法所選擇的那個滯後期數。或者對不同滯後期數的AR模型分別進行迴歸估計,然後考察結果是否對滯後期的選擇很敏感。亦即不同滯後期對分析結論是否影響很大。最後再綜合判定選擇最優的一個滯後期數。

2.4. 信息準則之間的比較

   AIC=-2 ln(L) + 2 k  

   BIC=-2 ln(L) + ln(n)*k

HQ=-2ln(L) + ln(ln(n))*k  
  
 構造這些統計量所遵循的統計思想是一致的,就是在考慮擬合殘差的同時,依自變量個數施加“懲罰”。但,倘若因此就說它們是同一個指標,恐怕還是有些不妥,畢竟“懲罰”的力度還是不盡相同的。此外,這些信息量的用途不僅限於選擇模型,還能用於選取合適的變換等等。而在那些時候,這些信息量又是另一個模樣,也就是說它們有許多變體。因此,它們也被稱爲AIC準則、BIC準則等等。它們中的每一個體現的都是一系列的標準,而非單獨的一個簡單式子。

注意:這些規則只是刻畫了用某個模型之後相對“真實模型”的信息損失(因爲不知道真正的模型是什麼樣子,所以訓練得到的所有模型都只是真實模型的一個近似模型),所以用這些規則不能說明某個模型的精確度,即三個模型A, B, C,在通過這些規則計算後,我們知道B模型是三個模型中最好的,但是不能保證B這個模型就能夠很好地刻畫數據,因爲很有可能這三個模型都是非常糟糕的,B只是爛蘋果中的相對好的蘋果而已。

3. 結論

通過對以上三個信息準則的學習,我們基本瞭解了AIC、BIC、及HQ信息準則的計算方法和相互之間的關係,並且瞭解到在一組可供選擇的模型中,我們通過判斷擬合程度能夠挑出最優化的模型,但是這都是具有相對性的,並不是說所選擇的模型就一定足夠精確。

參考文獻

[1]Renyan jiang.[M].Introduction to quality andReliability EngineeringScience Press Beijing201579-87.


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章