數學-機器學習-緒論

一 緒論

1.1 思維導圖簡述

在這裏插入圖片描述

機器學習思維導圖

1.2 頻率派Vs貝葉斯派

區別

頻率派,參數θ是常數,只不過它未知。貝葉斯派,參數θ是一個概率分佈,它有先驗知識θp(θ)\theta \sim p(θ)

在這裏插入圖片描述

頻率派是統計機器學習方法,就其本質而言,是一個優化問題。即將問題分爲三步走:

  1. 建立模型
  2. 設計Loss Function
  3. algorithm

貝葉斯派則是概率圖模型,就其本質而言,是求積分的問題。而其中最常用的就是MonteCarlo Method

在這裏插入圖片描述

A 頻率派:

θ是一個未知的常量,X是隨機變量,它更關心是數據,它要做的就是把θ估計出來,最常用的方法就是最大似然估計MLE(Maximum likelihood estimation)

MLE

在這裏插入圖片描述

最大似然估計就是求使L(θ)L(\theta )最大的θ\theta是多少,具體方法就是利用求導的方法:

在這裏插入圖片描述

至於爲什麼加上log,因爲一般P(Xθ)P(X|\theta)是一個乘積的形式,加上log後,就可以變成累加的形式,簡化計算。

B 貝葉斯派

與頻率派不相同的是,貝葉斯派認爲θ不是一個常量,它是一個概率分佈,它有一個先驗知識。而後借用貝葉斯定理把參數的先驗和後驗用似然聯繫起來。利用MAP(Maximum a posteriori estimation)最大後驗估計來求出參數θ。

在這裏插入圖片描述

其中,P(X)是一個常量與θ沒有關係,就是一個積分常量,因而可以寫成正比於P(Xθ)P(θ)dθ\int {P(X|\theta )} P(\theta )d\theta

MAP

MAP是最大後驗估計,就和其含義一樣,它的目的是使後驗概率最大。參數θ是一個概率分佈,要找到一個使得後驗概率最大的那個點,來代替它的估計。這個點是衆數的概念。

在這裏插入圖片描述

最大後驗估計MAP,其和最大似然估計MLE不同的是:

在MLE中,參數θ是一個定值,只是這個值未知,最大似然函數是θ的函數,這裏的θ是沒有概率意義的,但是,在MAP中,θ是有概率意義的,θ有自己的分佈,而這個分佈函數,需要通過已有的樣本集合X得到,即最大後驗估計MAP需要計算的是p(θX)p(\theta|X)

MAP並不是嚴格意義上的貝葉斯估計。真正的貝葉斯估計就是要實打實的求這個積分P(Xθ)P(θ)dθ\int {P(X|\theta )} P(\theta )d\theta ,而後求出後驗概率。求出的這個後驗概率能幹嘛呢?就可以引出貝葉斯預測。
實際上在整個參數空間求積分是很困難的,所以從貝葉斯角度發展出來很多解析方法,概率圖模型。實際上貝葉斯就是求積分,解析解求不出來,我們還可以用MonteCarlo Method

在這裏插入圖片描述

1.3 問題

Q1: 什麼是機器學習

機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論凸分析算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。

Q2: 說的頻率派和貝葉斯派爲什麼看起來和想的機器學習不一樣

現在分析的是數學理論,是數學描述方法,你想的是應用層次問題,應用層次的底層纔是機器學習數學理論。總結就是,急啥急,邊走邊看。

參考資料

[1]shuhuai008. 【機器學習】【白板推導系列】【合集 1~23】. bilibili. 2019.
https://www.bilibili.com/video/BV1aE411o7qd?p=1

[2] zhaosarsa. 【數學基礎】參數估計之最大後驗估計(Maximum A Posteriori,MAP). CSDN博客. 2018.
https://blog.csdn.net/qq_32742009/article/details/81477611

[3] 筆記手稿.
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章