第一章 統計學習方法概論

1、統計學習方法

統計學習方法是基於數據構建統計模型從而對數據進行預測和分析、統計學習方法由監督學習非監督學習、半監督學習和強化學習等組成。主要討論監督學習

統計學習方法步驟:

有限訓練集合
確定學習模型集合(模型選擇)
確定模型選擇準則(策略,損失函數確定)
實現求解最優化模型算法(算法,梯度下降算法選擇)
最優化模型選擇
利用模型對數據進行預測分析

統計學習的三要素:模型、策略和算法

2、監督學習

監督學習:Supervised Learning的數據是有特徵(feature)和標籤(label)的。機器可以尋找到標籤和特徵之間的聯繫,當面對只有特徵而沒有標籤的數據時,可以判斷出標籤。

非監督學習:Unsupervised Learning的數據只有特徵(feature),沒有標籤(label)。

半監督學習:Semi-Supervised Learning中使用的數據,有一部分是標記過的,而大部分是沒有標記的。因此和監督學習相比,半監督學習的成本較低,但是又能達到較高的準確度。

強化學習:強化學習也是使用未標記的數據,但是可以通過某種方法知道你是離正確答案越來越近還是越來越遠(即獎懲函數)。可以把獎懲函數想象成正確答案的一個延遲的、稀疏的形式。在監督學習中,能直接得到每個輸入的對應的輸出。強化學習中,訓練一段時間後,你才能得到一個延遲的反饋,並且只有一點提示說明你是離答案越來越遠還是越來越近。


3、統計學習三要素

模型、策略、算法

模型就是要學習的條件分佈和決策函數

策略學習準則,引入損失函數,損失函數越小模型越好

算法,求解最優解

4、模型評估與模型選擇

訓練誤差和測試誤差,測試誤差反映對未知數據集的預測能力(泛化能力),是學習中的重要概念。

模型複雜度要與問題相當,否則會造成訓練誤差小,測試誤差大的現象。

5、正則化與交叉驗證

正則化,正則化一般是模型複雜度的單調遞增函數,模型越複雜正則化值越大。

交叉驗證

簡單交叉驗證:劃分驗證集和訓練集

s折交叉驗證:切分s個數據集,s-1做訓練,1做測試。最終選s次中誤差最小的一個

6、泛化能力

對未知數據的預測能力,通過測試誤差驗證。

泛化誤差就是學習到的模型的期望風險。

經驗風險(訓練誤差)小於期望風險(測試誤差)

7、生成模型和判別模型

生成模型學習聯合概率分佈

判別模型給輸入預測輸出

8、分類問題、標註問題、迴歸問題

準確率召回率

迴歸問題與分類問題本質上都是要建立映射關係:
f(x)→y, x∈A,y∈B

迴歸問題,其輸出空間B是一個度量空間,即所謂“定量”。也就是說,迴歸問題的輸出空間定義了一個度量,去衡量輸出值與真實值之間的“誤差大小”。例如:預測一瓶700毫升的可樂的價格(真實價格爲5元)爲6元時,誤差爲1;預測其爲7元時,誤差爲2。這兩個預測結果是不一樣的,是有度量定義來衡量這種“不一樣”的。(於是有了均方誤差這類誤差函數)。

分類問題,其輸出空間B不是度量空間,即所謂“定性”。也就是說,在分類問題中,只有分類“正確”與“錯誤”之分,至於錯誤時是將Class 5分到Class 6,還是Class 7,並沒有區別,都是在error counter上+1。

在實際操作中,我們確實常常將回歸問題和分類問題互相轉化(分類問題迴歸化:邏輯迴歸;迴歸問題分類化:年齡預測問題——>年齡段分類問題),但這都是爲了處理實際問題時的方便之舉,背後損失的是數學上的嚴謹性。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章