一 緒論
1.1 思維導圖簡述
1.2 頻率派Vs貝葉斯派
區別
頻率派,參數θ是常數,只不過它未知。貝葉斯派,參數θ是一個概率分佈,它有先驗知識
頻率派是統計機器學習方法,就其本質而言,是一個優化問題。即將問題分爲三步走:
- 建立模型
- 設計Loss Function
- algorithm
貝葉斯派則是概率圖模型,就其本質而言,是求積分的問題。而其中最常用的就是MonteCarlo Method
A 頻率派:
θ是一個未知的常量,X是隨機變量,它更關心是數據,它要做的就是把θ估計出來,最常用的方法就是最大似然估計MLE(Maximum likelihood estimation)
MLE
最大似然估計就是求使最大的是多少,具體方法就是利用求導的方法:
至於爲什麼加上log
,因爲一般是一個乘積的形式,加上log
後,就可以變成累加的形式,簡化計算。
B 貝葉斯派
與頻率派不相同的是,貝葉斯派認爲θ不是一個常量,它是一個概率分佈,它有一個先驗知識。而後借用貝葉斯定理把參數的先驗和後驗用似然聯繫起來。利用MAP(Maximum a posteriori estimation)
最大後驗估計來求出參數θ。
其中,P(X)是一個常量與θ沒有關係,就是一個積分常量,因而可以寫成正比於
MAP
MAP是最大後驗估計,就和其含義一樣,它的目的是使後驗概率最大。參數θ是一個概率分佈,要找到一個使得後驗概率最大的那個點,來代替它的估計。這個點是衆數的概念。
最大後驗估計MAP,其和最大似然估計MLE不同的是:
在MLE中,參數θ是一個定值,只是這個值未知,最大似然函數是θ的函數,這裏的θ是沒有概率意義的,但是,在MAP中,θ是有概率意義的,θ有自己的分佈,而這個分佈函數,需要通過已有的樣本集合X得到,即最大後驗估計MAP需要計算的是
MAP並不是嚴格意義上的貝葉斯估計。真正的貝葉斯估計就是要實打實的求這個積分,而後求出後驗概率。求出的這個後驗概率能幹嘛呢?就可以引出貝葉斯預測。
實際上在整個參數空間求積分是很困難的,所以從貝葉斯角度發展出來很多解析方法,概率圖模型。實際上貝葉斯就是求積分,解析解求不出來,我們還可以用MonteCarlo Method
1.3 問題
Q1: 什麼是機器學習
機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
Q2: 說的頻率派和貝葉斯派爲什麼看起來和想的機器學習不一樣
現在分析的是數學理論,是數學描述方法,你想的是應用層次問題,應用層次的底層纔是機器學習數學理論。總結就是,急啥急,邊走邊看。
參考資料
[1]shuhuai008. 【機器學習】【白板推導系列】【合集 1~23】. bilibili. 2019.
https://www.bilibili.com/video/BV1aE411o7qd?p=1
[2] zhaosarsa. 【數學基礎】參數估計之最大後驗估計(Maximum A Posteriori,MAP). CSDN博客. 2018.
https://blog.csdn.net/qq_32742009/article/details/81477611
[3] 筆記手稿.