機器學習(統計學習方法)3

Day 3

正交化與交叉驗證

正交化

        正則化是結構風險最小化策略的實現,是在經驗風險上加一個正則化項(regularizer)或罰項(penalty term)。模型越複雜,正則化值越大。
        

先驗概率(prior probability)是指根據以往經驗和分析得到的概率,如全概率公式,它往往作爲"由因求果"問題中的"因"出現的概率·。
交叉驗證
交叉驗證的基本思路是:重複利用數據,將給定的數據進行切分,使之爲訓練集與測試集,在此基礎上反覆進行訓練,測試以及模型的選擇。
簡單交叉驗證:
隨機分配數據,爲訓練集以及測試集,用訓練集在各種條件下(參數不同)進行訓練得出模型,再利用測試集對模型進行檢驗。選出誤差最小的模型。
S折交叉檢驗(S-fold cross validation):將已知數據分爲s個子集,對其中的s-1個子集數據進行模型訓練,利用剩下的一個進行測試。對這一可能進行s次選擇,最後從s個模型中選出誤差最小的一個。
留一交叉檢驗:
當S=N時,的特殊情況,此時N爲數據的容量。

泛化能力

學習方法的泛化能力是由該方法所得到的模型對未知數據的預測能力。

泛化誤差上界:泛化誤差概率上界。
性質:
1、是樣本容量的函數,樣本容量增加的時候,泛化上界趨於零。
2、是假設空間容量的函數,假設空間容量越大,模型越難學,泛化誤差上界越大。

ok,I admit I was lazy~but it is late,I am a little tired,so~see you tomorrow~bye~
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章