再學花書----chapter5機器學習基礎

pdf: Page115~Page 144

機器學習本質上屬於應用統計學,更多地關注於如何用
計算機統計地估計複雜函數,不太關注爲這些函數提供置信區間
? 學習算法中的學習是什麼意思
對於某類任務 T(target) 和性能度量P(performance measurement) ,一個計算機程序被認爲可以從經驗 E (experience)中學習是指,通過經驗 E 改進後,它在任務 T 上由性能度量 P 衡量的性能有所提升

樣本: 我們從某些希望機器學習系統處理的對象或事件中收集到的已經量化的 特徵(feature)的集合。我們通常會將樣本表示成一個向量 x ∈ Rn其中向量的每一個元素 xi是一個特徵。 例如,一張圖片的特徵通常是指這張圖片的像素值。

? 機器學習可以解決哪些任務
1:分類
2:迴歸: 在這類任務中,計算機程序需要對給定輸入預測數值。爲了解決這個任務,學習算法需要輸出函數 f : Rn → R。除了返回結果的形式不一樣外,這類問題和分類問題是很像的, 結果一個是離散的一個是連續的
3:轉錄: 這類任務中,機器學習系統觀測一些相對非結構化表示的數據,並轉錄信息爲離散的文本形式。例如,光學字符識別要求計算機程序根據文本圖片返回文字序列(ASCII 碼或者 Unicode 碼)。
4:機器翻譯
5:結構化輸出: 例如 在爲圖片添加描述的任務中,計算機程序觀察到一幅圖,輸出描述這幅圖的自然語言句子,這類任務被稱爲結構化輸出任務是因爲輸出值之間內部緊密相關。例如,爲圖片添加標題的程序輸出的單詞必須組合成一個通順的句子。
6:異常檢測: 在這類任務中,計算機程序在一組事件或對象中篩選,並標記不正常或非典型的個體

本書中的大部分學習算法可以被理解爲在整個 數據集(dataset)上獲取經驗。

? 有監督和無監督

訓練含有很多特徵的數據集,一個給定了標籤(target/label),一個沒有給定標籤。
無監督學習涉及到觀察隨機向量 x 的好幾個樣本,試圖顯式或隱式地學習出概率分佈 p(x),或者是該分佈一些有意思的性質;
監督學習包含觀察隨機向量 x 及其相關聯的值或向量 y,然後從 x 預測 y,通常是估計 p(y | x), 有條件和無條件
有監督和無監督之間的相關轉化
在這裏插入圖片描述
在這裏插入圖片描述

線性迴歸: 將向量 x ∈ Rn 作爲輸入,預測標量 y ∈ R 作爲輸出。線性迴歸的輸出是其輸入的線性函數。令 yˆ 表示模型預測 y 應該取的值。我們定義輸出爲

在這裏插入圖片描述
其中 w ∈ Rn 是 參數(parameter)向量。

均方誤差
在這裏插入圖片描述
決定機器學習算法效果是否好的因素:

  1. 降低訓練誤差。
  2. 縮小訓練誤差和測試誤差的差距。

這兩個因素對應機器學習的兩個主要挑戰: 欠擬合過擬合。欠擬合是指模型不能在訓練集上獲得足夠低的誤差。而過擬合是指訓練誤差和和測試誤差之間的差距太大
用多項式來解釋欠擬合和過擬合問題

模型的容量是指其擬合各種函數的能力。容量低的模型可能很難擬合訓練集。容量高的模型可能會過擬合,因爲記住了不適用於測試集的訓練集性質。
奧卡姆剃刀原則: 在同樣能夠解釋已知觀測現象的假設中,我們
應該挑選 ‘‘最簡單’’ 的那一個
最近鄰迴歸(無參數模型代表): 最近鄰迴歸模型存儲了訓練集中所有的X 和 y。當需要爲測試點 x 分類時,模型會查詢訓練集中離該點最近的點,並返回相關的迴歸目標。在這裏插入圖片描述
貝葉斯誤差(Bayes error): 從預先知道的真實分佈 p(x, y) 預測而出現的誤差

線性迴歸的正則化
在這裏插入圖片描述
我們通過改變權重衰減的量來避免高階模型的過擬合問題

? 爲什麼權重衰減有助於解決過擬合問題
個人理解
由於數據集中每個數據並不一定完全滿足其對應的數據分佈情況,多少有點噪音(偏離水平),這個時候如果參數係數太大,導致求導結果很大,反傳過程差值變化會很大,有可能不在一個數量級上,這是噪音點造成的危害,爲了降低這種危害,讓導數保持在大概的數量級上,所以使用了正則化

正則化是指我們修改學習算法,使其降低泛化誤差而非訓練誤差。

我們總是從訓練數據中構建驗證集。特別地,我們將訓練數據分成兩個不相交的子集。其中一個用於學習參數。另一個作爲驗證集,用於估計訓練中或訓練後的泛化誤差,更新超參數,也就是說,驗證集是用來“學習”超參的。

k-折交叉驗證(估計學習算法 A 的泛化誤差)
在這裏插入圖片描述
點估計: 點估計試圖爲一些感興趣的量提供單個 ‘‘最優’’ 預測。一般地,感興趣的量可以是單個參數,或是某些參數模型中的一個向量參數
感覺點估計很像高中數學給定函數形式,求函數中的未知數
線性迴歸示例(第 5.1.4 節中討論的)和多項式迴歸示例(第 5.2 節中討論的)都既可以被解釋爲估計參數 w,又可以被解釋爲估計從 x 到 y 的函數映射 fˆ。

在這裏插入圖片描述
參數θ\thetam的值和m的取值有關係,就是說m愈大,樣本越多,θ\thetam越準確

一種解釋最大似然估計的觀點是將它看作最小化訓練集上的經驗分佈 pˆdata 和模型分佈之間的差異,兩者之間的差異程度可以通過 KL 散度度量。
在這裏插入圖片描述
我們可以將最大似然看作是使模型分佈儘可能地和經驗分佈 pˆdata 相匹配的嘗試

最大化關於 w 的對數似然和最小化均方誤差會得到相同的參數估
計 w。但是對於相同的最優 w,這兩個準則有着不同的值。

最大似然估計最吸引人的地方在於,它被證明當樣本數目 m → ∞ 時,就收斂率而言是最好的漸近估計。
因爲一致性和統計效率,最大似然通常是機器學習中的首選估計

從點估計視角來介紹概率派統計和貝葉斯統計:
頻率派的視角 真實參數 θ 是未知的定值,而點估計
θ^\hatθ 是考慮數據集上函數(可以看作是隨機的)的隨機變量。
貝葉斯用概率反映知識狀態的確定性程度。數據
集能夠被直接觀測到,因此不是隨機的。另一方面,真實參數 θ 是未知或不確定的,因此可以表示成隨機變量

貝葉斯估計沒搞懂,這塊後面單獨研究吧

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章