【機器學習】感知機學習---《統計學習方法》學習筆記

原創

2018-08-27 19:24

開始學習機器學習有一段時間了，一開始認爲做應用的只知道簡單的理論就夠了，因此更加傾向於學習《機器學習實戰》、《集體智慧編程》這類書籍，在學習了一段時間後，尤其是看了一段時間斯坦福大學的公開課以後，有一種強烈的慾望想要去學習機器學習中的數學，但是迫於自身數學能力不是很強，啃起《統計學習方法》這本書來，還是有一定難度的。只作爲一個筆記，以後可以溫故而知新。

在真正開始學習之前，其實統計學習方法中還是有一些基本概念需要理解的，在書中第一章。

基本概念

基本模型：

f (x) = s i g n (w \cdot x + b)

其中：

s i g n (x) = {+ 1, x \geq 0 - 1, x < 0

這是一種線性分類模型，屬於判別模型。

定義：假設輸入空間（特徵空間）是 χ⊆Rn ，輸出空間爲y={+1−1 ，輸入表示實例的特徵向量，對應於輸入空間的點；輸出表示實例的類別。由輸入空間到輸出空間的如下函數：

f (x) = s i g n (w \cdot x + b)

稱爲感知機。其中，

ω 和

b 爲感知機模型的參數。

ω∈R 叫做權值（weight），

b∈R 叫做偏置（bias）。

學習策略

目的：找出一個線性可分的超平面，定義一個損失函數，求 ω 和 b ，並將損失函數極小化。

損失函數的選取：

自然選擇是誤分類點的個數，但是這個函數並不是參數的連續可導函數，不易於優化；
可以選擇誤分類點到超平面的距離，即：
$1 ∥ ω ∥ | ω \cdot x + b |, ∥ ω ∥ 爲 ω 的 L 2 範數$
推導過程：
對於任何誤分類點來說：
$- y i (ω \cdot x i + b) > 0 ，$ $1 ∥ ω ∥ | ω \cdot x + b | = - 1 ∥ ω ∥ y i (ω \cdot x i + b) ，$
因此，所有誤分類點到超平面的距離之和爲： $L (ω, b) = - 1 ∥ ω ∥ \sum x i \in M y i (ω \cdot x i + b) ， M 爲所有的誤分類點。$
L(ω,b) 即爲感知機模型的損失函數。

學習算法

現在的問題變成了求解L(ω,b) 的最優化問題。在這裏有兩種形式：原始形式和對偶形式。

原始形式

描述：給定數據集T={(x1,y1),(x2,y2)⋅⋅⋅(xn,yn)} 。其中，xi∈X=R ，yi∈Y={+1,−1}.i=1,2,3⋅⋅⋅,N ，求參數ω，b ，使其成爲以下最優化問題的解：

m i n w, b L (ω, b) = - \sum x i \in M y i (ω x i + b) ，

其中

M 爲誤分類點的集合。

隨機梯度下降法：建議查閱相關資料。

求解（求梯度）：

對於ω 求偏導：

▽ ω (ω, b) = - \sum x i \in M y i x i ，

對於

b 求偏導：

▽ b (ω, b) = - \sum x i \in M y i

隨機選取誤分類點(xi,yi), 對於ω,b 進行更新：

ω \leftarrow ω + η y i x i,

b \leftarrow b + η y i,

其中，

η 表示爲步長或者學習率，控制梯度下降的速度。

綜上所述，感知機學習算法的原始形式表述如下：

輸入：訓練數據集T={(x1,y1),(x2,y2)⋅⋅⋅(xn,yn)} ，其中，xi∈X=R ，yi∈Y={+1,−1}.i=1,2,3⋅⋅⋅,N ；學習率η（0<η≤1）；

輸出： ω,b ；感知機模型 f(x)=sign(ω⋅x+b) 。

步驟：

選取初值ω0,b0 ；
在訓練集中選取數據(xi,yi) ；
如果yi(ω⋅xi+b)≤0： $ω \leftarrow ω + η y i x i,$ $b \leftarrow b + η y i$
轉至step2，直到訓練集中沒有誤分類點。

對偶形式

不想寫了。。。。。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【機器學習】感知機學習---《統計學習方法》學習筆記

基本概念

學習策略

學習算法

原始形式

對偶形式

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

集體智慧編程（四）優化

Java防盜鏈（防止網頁從其他地方直接訪問）

elasticsearch Getting Started (三)-探索集羣

【Python】爬蟲爬取各大網站新聞（一）

elasticsearch Getting Started (二)-安裝

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結