一緒論

1.1 思維導圖簡述

機器學習思維導圖

1.2 頻率派Vs貝葉斯派

區別

頻率派，參數θ是常數，只不過它未知。貝葉斯派，參數θ是一個概率分佈，它有先驗知識 $\theta \sim p(θ)$

頻率派是統計機器學習方法，就其本質而言，是一個優化問題。即將問題分爲三步走：

建立模型
設計Loss Function
algorithm

貝葉斯派則是概率圖模型，就其本質而言，是求積分的問題。而其中最常用的就是MonteCarlo Method

A 頻率派：

θ是一個未知的常量，X是隨機變量，它更關心是數據，它要做的就是把θ估計出來，最常用的方法就是最大似然估計MLE(Maximum likelihood estimation)

MLE

最大似然估計就是求使 $L(\theta )$ 最大的 $\theta$ 是多少，具體方法就是利用求導的方法：

至於爲什麼加上log，因爲一般 $P(X|\theta)$ 是一個乘積的形式，加上log後，就可以變成累加的形式，簡化計算。

B 貝葉斯派

與頻率派不相同的是，貝葉斯派認爲θ不是一個常量，它是一個概率分佈，它有一個先驗知識。而後借用貝葉斯定理把參數的先驗和後驗用似然聯繫起來。利用MAP(Maximum a posteriori estimation)最大後驗估計來求出參數θ。

其中，P(X)是一個常量與θ沒有關係，就是一個積分常量，因而可以寫成正比於 $\int {P(X|\theta )} P(\theta )d\theta$

MAP

MAP是最大後驗估計，就和其含義一樣，它的目的是使後驗概率最大。參數θ是一個概率分佈，要找到一個使得後驗概率最大的那個點，來代替它的估計。這個點是衆數的概念。

最大後驗估計MAP，其和最大似然估計MLE不同的是：

在MLE中，參數θ是一個定值，只是這個值未知，最大似然函數是θ的函數，這裏的θ是沒有概率意義的，但是，在MAP中，θ是有概率意義的，θ有自己的分佈，而這個分佈函數，需要通過已有的樣本集合X得到，即最大後驗估計MAP需要計算的是 $p(\theta|X)$

MAP並不是嚴格意義上的貝葉斯估計。真正的貝葉斯估計就是要實打實的求這個積分 $\int {P(X|\theta )} P(\theta )d\theta$ ，而後求出後驗概率。求出的這個後驗概率能幹嘛呢？就可以引出貝葉斯預測。
實際上在整個參數空間求積分是很困難的，所以從貝葉斯角度發展出來很多解析方法，概率圖模型。實際上貝葉斯就是求積分，解析解求不出來，我們還可以用MonteCarlo Method

1.3 問題

Q1: 什麼是機器學習

機器學習是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的性能。

Q2: 說的頻率派和貝葉斯派爲什麼看起來和想的機器學習不一樣

現在分析的是數學理論，是數學描述方法，你想的是應用層次問題，應用層次的底層纔是機器學習數學理論。總結就是，急啥急，邊走邊看。

參考資料

[1]shuhuai008. 【機器學習】【白板推導系列】【合集 1～23】. bilibili. 2019.
https://www.bilibili.com/video/BV1aE411o7qd?p=1

[2] zhaosarsa. 【數學基礎】參數估計之最大後驗估計（Maximum A Posteriori，MAP）. CSDN博客. 2018.
https://blog.csdn.net/qq_32742009/article/details/81477611

[3] 筆記手稿.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數學-機器學習-緒論

一緒論

1.1 思維導圖簡述

1.2 頻率派Vs貝葉斯派