第一章統計學習方法概論

1、統計學習方法

統計學習方法是基於數據構建統計模型從而對數據進行預測和分析、統計學習方法由監督學習非監督學習、半監督學習和強化學習等組成。主要討論監督學習

統計學習方法步驟：

有限訓練集合
確定學習模型集合（模型選擇）
確定模型選擇準則（策略，損失函數確定）
實現求解最優化模型算法（算法，梯度下降算法選擇）
最優化模型選擇
利用模型對數據進行預測分析

統計學習的三要素：模型、策略和算法

2、監督學習

監督學習：Supervised Learning的數據是有特徵(feature)和標籤(label)的。機器可以尋找到標籤和特徵之間的聯繫，當面對只有特徵而沒有標籤的數據時，可以判斷出標籤。

非監督學習：Unsupervised Learning的數據只有特徵（feature），沒有標籤（label）。

半監督學習：Semi-Supervised Learning中使用的數據，有一部分是標記過的，而大部分是沒有標記的。因此和監督學習相比，半監督學習的成本較低，但是又能達到較高的準確度。

強化學習：強化學習也是使用未標記的數據，但是可以通過某種方法知道你是離正確答案越來越近還是越來越遠（即獎懲函數）。可以把獎懲函數想象成正確答案的一個延遲的、稀疏的形式。在監督學習中，能直接得到每個輸入的對應的輸出。強化學習中，訓練一段時間後，你才能得到一個延遲的反饋，並且只有一點提示說明你是離答案越來越遠還是越來越近。

3、統計學習三要素

模型、策略、算法

模型就是要學習的條件分佈和決策函數

策略學習準則，引入損失函數，損失函數越小模型越好

算法，求解最優解

4、模型評估與模型選擇

訓練誤差和測試誤差，測試誤差反映對未知數據集的預測能力（泛化能力），是學習中的重要概念。

模型複雜度要與問題相當，否則會造成訓練誤差小，測試誤差大的現象。

5、正則化與交叉驗證

正則化，正則化一般是模型複雜度的單調遞增函數，模型越複雜正則化值越大。

交叉驗證

簡單交叉驗證：劃分驗證集和訓練集

s折交叉驗證：切分s個數據集，s-1做訓練，1做測試。最終選s次中誤差最小的一個

6、泛化能力

對未知數據的預測能力，通過測試誤差驗證。

泛化誤差就是學習到的模型的期望風險。

經驗風險（訓練誤差）小於期望風險（測試誤差）

7、生成模型和判別模型

生成模型學習聯合概率分佈

判別模型給輸入預測輸出

8、分類問題、標註問題、迴歸問題

準確率召回率

迴歸問題與分類問題本質上都是要建立映射關係：
f(x)→y, x∈A，y∈B

迴歸問題，其輸出空間B是一個度量空間，即所謂“定量”。也就是說，迴歸問題的輸出空間定義了一個度量，去衡量輸出值與真實值之間的“誤差大小”。例如：預測一瓶700毫升的可樂的價格（真實價格爲5元）爲6元時，誤差爲1；預測其爲7元時，誤差爲2。這兩個預測結果是不一樣的，是有度量定義來衡量這種“不一樣”的。（於是有了均方誤差這類誤差函數）。

分類問題，其輸出空間B不是度量空間，即所謂“定性”。也就是說，在分類問題中，只有分類“正確”與“錯誤”之分，至於錯誤時是將Class 5分到Class 6,還是Class 7，並沒有區別，都是在error counter上+1。

在實際操作中，我們確實常常將回歸問題和分類問題互相轉化（分類問題迴歸化：邏輯迴歸；迴歸問題分類化：年齡預測問題——>年齡段分類問題），但這都是爲了處理實際問題時的方便之舉，背後損失的是數學上的嚴謹性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

第一章統計學習方法概論

1、統計學習方法

2、監督學習

3、統計學習三要素

4、模型評估與模型選擇

5、正則化與交叉驗證

6、泛化能力

7、生成模型和判別模型

8、分類問題、標註問題、迴歸問題

win11關閉自動檢測病毒刪文件

千兆寬帶實際網速能到達多少？

圖像的讀取、存儲、類型轉換

C++解法：劍指offer，輸入一個鏈表，輸出該鏈表中倒數第k個結點。

.y4m轉成圖片——阿里優酷圖像超分辨率比賽

第二章、感知機

C++解法：輸入兩棵二叉樹A，B，判斷B是不是A的子結構。（ps：我們約定空樹不是任意一個樹的子結構）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

第一章 統計學習方法概論

1、統計學習方法

2、監督學習

3、統計學習三要素

4、模型評估與模型選擇

5、正則化與交叉驗證

6、泛化能力

7、生成模型和判別模型

8、分類問題、標註問題、迴歸問題

第一章統計學習方法概論