機器學習模型LaTeX公式版：隱馬爾科夫模型

狀態集合

Q = {q 1, q 2, \dots, q N} ∣ ∣ Q ∣ ∣ = N

觀測集合

V = {v 1, v 2, \dots, v M} ∣ ∣ V ∣ ∣ = M

狀態序列

I = {i 1, i 2, \dots, i t, \dots, i T} i t \in Q (t = 1, 2, \dots, T)

觀測序列

O = {o 1, o 2, \dots, o t, \dots, o T} o t \in V (t = 1, 2, \dots, T)

狀態轉移矩陣

A = [a i j] N \times N

在

t 時刻處於狀態

qi 的條件下，在

t+1 時刻轉移到狀態

qj 的概率

a i j = P (i t + 1 = q j | i t = q i) (i = 1, 2, \dots, N) (j = 1, 2, \dots, M)

觀測概率矩陣

B = [b j (k)] N \times M

在

t 時刻處於狀態

qi 的條件下，生成觀測

vk 的概率

b j (k) = P (o t = v k | i t = q j) (k = 1, 2, \dots, M) (j = 1, 2, \dots, N)

初始概率向量

π = (π i)

在時刻

t=1 處於狀態

qi 的概率

π i = P (i 1 = q i) (i = 1, 2, \dots, N)

隱馬爾科夫模型

λ = (A, B . π)

隱馬爾科夫模型基本假設：
1. 齊次馬爾科夫性假設：在任意時刻

t 的狀態只依賴於時刻

t−1 的狀態。

P (i t | i t - 1, o t - 1, \dots, i 1, o 1) = P (i t | i t - 1) (t = 1, 2, \dots, T)

2. 觀測獨立性假設：任意時刻

t 的觀測只依賴於時刻

t 的狀態。

P (o t | i T, o T, i T - 1, o T - 1, \dots, i t + 1, o t + 1, i t, i t - 1, o t - 1, \dots, i 1, o 1) = P (o t | i t) (t = 1, 2, \dots, T)

觀測序列生成算法:
輸入：隱馬爾科夫模型

λ=(A,B.π) ,觀測序列長度

T ;
輸出：觀測序列

O={o1,o2,…,ot,…,oT} ；
1. 由初始概率向量

π 產生狀態

i1 ；
2.

t=1 ；
3. 由狀態

it 的觀測概率分佈

bj(k) 生成

ot ；
4. 由狀態

it 的狀態轉移概率分佈

aitit+1 生成狀態

it+1(it+1=1,2,…,N) ；
5.

t=t+1 ；如果

t<T ，轉至3.；否則，結束。

隱馬爾科夫模型的3個基本問題：
1. 概率計算：已知λ=(A,B,π) 和O={o1,o2,…,ot,…,oT} ，計算P(O|λ)
2. 學習：已知O={o1,o2,…,ot,…,oT} ，計算 λ∗=argmaxP(O|λ)
3. 預測（編碼）：已知λ=(A,B.π) 和O={o1,o2,…,ot,…,oT} ，計算 I∗=argmaxP(I|O,λ)

前向概率

α t (i) = P (o 1, o 2, \dots, o t, i t = q i | λ)

給定模型

λ ，時刻

t 部分觀測序列爲

o1,o2,…,ot 且狀態爲

qi 的概率。
前向概率遞推計算

α t (i) = P (o 1, o 2, \dots, o t, i t = q i | λ) ＝ P (i t = q i, o t 1) = \sum j = 1 N P (i t - 1 = q j, i t = q i, o t - 1 1, o t) = \sum j = 1 N P (i t = q i, o t | i t - 1 = q j, o t - 1 1) \cdot P (i t - 1 = q j, o t - 1 1) = \sum j = 1 N P (i t = q i, o t | i t - 1 = q j) \cdot α t - 1 (j) = \sum j = 1 N P (o t | i t = q i, i t - 1 = q j) \cdot P (i t = q i | i t - 1 = q j) \cdot α t - 1 (j) = \sum j = 1 N b i (o t) \cdot a j i \cdot α t - 1 (j)

概率計算

P (O | λ) = P (o T 1 | λ) = \sum i = 1 N P (o T 1, i T = q i) = \sum i = 1 N α T (i)

觀測序列概率計算的前向算法：
輸入：隱馬爾科夫模型

λ ,觀測序列

O ;
輸出：觀測序列概率

P(O|λ) ；
1. 初值

α 1 (i) = π i b i (o 1) (t = 1, 2, \dots, N)

2. 遞推對

t=1,2,…,T−1

α t + 1 (i) = \sum j = 1 N b i (o t + 1) \cdot a j i \cdot α t (j) (t = 1, 2, \dots, N)

3. 終止

P (O | λ) = \sum j = 1 N α T (i)

後向概率

β t (i) = P (o t + 1, o t + 2, \dots, o T | i t = q i λ)

給定模型

λ ，時刻

t 狀態爲

qi 的條件下，從時刻

t+1 到時刻

T 的部分觀測序列爲

ot+1,ot+2,…,oT 的概率。
後向概率遞推計算

β t (i) = P (o t + 1, o t + 2, \dots, o T | i t = q i, λ) ＝ P (o T t + 1 | i t = q i) = P ( o T t + 1 , i t = q i ) P ( i t = q i ) = \sum N j = 1 P ( o T t + 1 , i t = q i , i t + 1 = q j ) P ( i t = q i ) = \sum j = 1 N P ( o T t + 1 | i t = q i , i t + 1 = q j ) \cdot P ( i t = q i , i t + 1 = q j ) P ( i t = q i ) = \sum j = 1 N P (o T t + 1 | i t + 1 = q j) \cdot P ( i t + 1 = q j | i t = q i ) \cdot P ( i t = q i ) P ( i t = q i ) = \sum j = 1 N P (o N t + 2, o t + 1 | i t + 1 = q j) \cdot a i j = \sum j = 1 N P (o T t + 2 | i t + 1 = q j) \cdot P (o t + 1 | i t + 1 = q j) \cdot a i j = \sum j = 1 N β t + 1 (j) \cdot b j (o t + 1) \cdot a i j

概率計算

P (O | λ) = P (o T 1 | λ) = \sum i = 1 N P (o T 1, i 1 = q i) = \sum i = 1 N P (i 1 = q i) \cdot P (o 1 | i 1 = q i) \cdot P (o T 2 | i 1 = q i) = \sum i = 1 N π i b i (o 1) β 1 (i)

觀測序列概率計算的後向算法：
輸入：隱馬爾科夫模型

λ ,觀測序列

O ;
輸出：觀測序列概率

P(O|λ) ；
1. 初值

β T (i) = 1 (t = 1, 2, \dots, N)

2. 遞推對

t=T−1,T−2,…,1

β t (i) = \sum j = 1 N β t + 1 (j) \cdot b j (o t + 1) \cdot a i j (t = 1, 2, \dots, N)

3. 終止

P (O | λ) = \sum j = 1 N π i b i (o 1) β 1 (i)

P(O|λ) 的前向概率、後向概率的表示

P (O | λ) ＝ P (o T 1) ＝ \sum i = 1 N \sum j = 1 N P (o t 1, o T t + 1, i t = q i, i t + 1 = q j) ＝ \sum i = 1 N \sum j = 1 N P (o t 1, i t = q i, i t + 1 = q j) P (o T t + 1 | i t + 1 = q j) = \sum i = 1 N \sum j = 1 N P (o t 1, i t = q i) P (i t + 1 = q j | i t = q i) P (o T t + 1 | i t + 1 = q j) = \sum i = 1 N \sum j = 1 N P (o t 1, i t = q i) P (i t + 1 = q j | i t = q i) P (o t + 1 | i t + 1 = q j) P (o T t + 2 | i t + 1 = q j) = \sum i = 1 N \sum j = 1 N α t (i) a i j b j (o t + 1) β t + 1 (j) t = 1, 2, \dots, T - 1

給定模型

λ 和觀測

O ，在時刻

t 處於狀態

qi 的概率

γ t (i) = P (i t = q i | O, λ) = P ( i t = q i , O | λ ) P ( O | λ ) = P ( i t = q i , O | λ ) \sum N j = 1 ( i t = q i , O | λ ) = P ( o t 1 , i t = q i ) P ( o T t + 1 | i t = q i ) \sum N j = 1 P ( o t 1 , i t = q i ) P ( o T t + 1 | i t = q i ) = α t ( i ) β t ( i ) \sum N j = 1 α t ( i ) β t ( i )

給定模型

λ 和觀測

O ，在時刻

t 處於狀態

qi 且在時刻

t+1 處於狀態

qj 的概率

ξ t (i, j) = P (i t = q i, i t + 1 = q j | O, λ) = P ( i t = q i , i t + 1 = q j , O | λ ) P ( O | λ ) = P ( i t = q i , i t + 1 = q j , O | λ ) \sum N i = 1 \sum N j = 1 P ( i t = q i , i t + 1 = q j , O | λ ) = α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( j ) \sum N i = 1 \sum N j = 1 α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( j )

在觀測

O 下狀態

i 出現的期望

\sum t = 1 T γ t (i) = \sum t = 1 T P (i t = q i | O, λ)

在觀測

O 下由狀態

i 轉移的期望

\sum t = 1 T － 1 γ t (i) = \sum t = 1 T － 1 P (i t = q i | O, λ)

在觀測

O 下由狀態

i 轉移到狀態

j 的期望

\sum t = 1 T － 1 ξ t (i, j) = \sum t = 1 T － 1 P (i t = q i, i t + 1 = q j | O, λ)

將觀測序列作爲觀測數據

O ,將狀態序列作爲隱數據

I ，則應馬爾科夫模型是含有隱變量的概率模型

P (O | λ) = \sum I P (O | I, λ) P (I | λ)

完全數據

Q(λ,λ⎯⎯) 函數

Q (λ, λ ⎯ ⎯) = E I [log P (O, I | λ) | O, λ ⎯ ⎯] = \sum I log P (O, I | λ) P (I | O, λ ⎯ ⎯) = \sum I log P ( O , I | λ ) P ( O , I | λ ⎯ ⎯ ) P ( O | λ ⎯ ⎯ )

其中，

λ⎯⎯ 是隱馬爾科夫模型參數的當前估計值，

λ 是隱馬爾科夫模型參數。
由於對最大化

Q(λ,λ⎯⎯) 函數，

P(O|λ⎯⎯) 爲常數因子，
以及

P (O, I | λ) = π i 1 b i 1 (o 1) a i 1 i 2 b i 2 (o 2) \dots a i T - 1 i T b T (o T)

所以求

Q(λ,λ⎯⎯) 函數對

λ 的最大

λ = arg max Q (λ, λ ⎯ ⎯) \Leftrightarrow arg max \sum I log P (O, I | λ) P (O, I | λ ⎯ ⎯) = \sum I log π i 1 P (O, I | λ ⎯ ⎯) + \sum I (\sum t = 1 T - 1 log a i t i t + 1) P (O, I | λ ⎯ ⎯) + \sum I (\sum t = 1 T log b i t (o t)) P (O, I | λ ⎯ ⎯)

對三項分別進行極大化：
1.

max \sum I log π i 1 P (O, I | λ ⎯ ⎯) = \sum i = 1 N log π i 1 P (O, i 1 = i | λ ⎯ ⎯) s . t . \sum i = 1 N π i = 1

構造拉格朗日函數，對其求偏導，令結果爲0

\partial \partial π i [\sum i = 1 N log π i 1 P (O, i 1 = i | λ ⎯ ⎯) + γ (\sum i = 1 N π i - 1)] = 0

得

P (O, i 1 = i | λ ⎯ ⎯) + γ π i = 0 \sum i = 1 N [P (O, i 1 = i | λ ⎯ ⎯) + γ π i] = 0 \sum i = 1 N P (O, i 1 = i | λ ⎯ ⎯) + γ \sum i = 1 N π i = 0 P (O | λ ⎯ ⎯) + γ = 0 γ = - P (O | λ ⎯ ⎯)

代入

P(O,i1=i|λ⎯⎯)+γπi=0 ，得

π i = P ( O , i 1 = i | λ ⎯ ⎯ ) P ( O | λ ⎯ ⎯ ) = γ 1 (i)

max \sum I (\sum t = 1 T - 1 log a i t i t + 1) P (O, I | λ ⎯ ⎯) = \sum i = 1 N \sum j = 1 N \sum t = 1 T - 1 log a i j P (O, i t = i, i t + 1 = j | λ ⎯ ⎯) s . t . \sum j = 1 N a i j = 1

得

a i j = \sum T - 1 t = 1 P ( O , i t = i , i t + 1 = j | λ ⎯ ⎯ ) \sum T - 1 t = 1 P ( O , i t = i | λ ⎯ ⎯ ) = \sum T - 1 t = 1 ξ t ( i , j ) \sum T - 1 t = 1 γ t ( i )

max \sum I (\sum t = 1 N log b i t (o t)) P (O, I | λ ⎯ ⎯) = \sum j = 1 N \sum t = 1 T log b j (o t) P (O, i t = j | λ ⎯ ⎯) s . t . \sum k = 1 M b j (k) = 1

得

b j (k) = \sum T t = 1 P ( O , i t = j | λ ⎯ ⎯ ) I ( o t = v k ) \sum T t = 1 P ( O , i t = j | λ ⎯ ⎯ ) = \sum T t = 1 , o t = v k γ t ( j ) \sum T t = 1 γ t ( j )

Baum-Welch算法：
輸入：觀測數據

O=(o1,o2,⋯,oT)
輸出：隱馬爾科夫模型參數
1. 初始化
對

n=0 ，選取

a(0)ij,bj(k)(0),π(0)i ，得到模型

λ(0)=(a(0)ij,bj(k)(0),π(0)i)
2. 遞推
對

n=1,2,⋯,

a (n + 1) i j = \sum T - 1 t = 1 ξ t ( i , j ) \sum T - 1 t = 1 γ t ( i ) b j (k) (n + 1) = \sum T t = 1 , o t = v k γ t ( j ) \sum T t = 1 γ t ( j ) π (n + 1) i = P ( O , i 1 = i | λ ⎯ ⎯ ) P ( O | λ ⎯ ⎯ )

其中，右端各值按觀測數據

O=(o1,o2,⋯,oT) 和模型

λ(n)=(A(n),B(n),π(n)) 計算。
3. 終止
得到模型

λ(n＋1)=(A(n+1),B(n+1),π(n+1))
在時刻

t 狀態爲

i 的所有單個路徑

(i1,i2,⋯,it) 中概率最大值

δ t (i) = max i 1, i 2, \dots, i t - 1 P (i t = i, i t - 1, \dots, i 1, o t, \dots, o 1 | λ) i = 1, 2, \dots, N

得遞推公式

δ t + 1 (i) = max i 1, i 2, \dots, i t P (i t + 1 = i, i t, \dots, i 1, o t + 1, \dots, o 1 | λ) = max 1 \leq j \leq N [max i 1, i 2, \dots, i t - 1 P (i t + 1 = i, i t = j, i t - 1, \dots, i 1, o t + 1, o t, \dots, o 1 | λ)] = max 1 \leq j \leq N [max i 1, i 2, \dots, i t - 1 P (i t + 1 = i, i t = j, i t - 1, \dots, i 1, o t, o t - 1, \dots, o 1 | λ) P (o t + 1 | i t + 1 = i, λ)] = max 1 \leq j \leq N [max i 1, i 2, \dots, i t - 1 P (i t = j, i t - 1, \dots, i 1, o t, o t - 1, \dots, o 1 | λ) P (i t + 1 = i | i t = j, λ) P (o t + 1 | i t + 1 = i, λ)] = max 1 \leq j \leq N [δ t (j) a j i] b i (o t + 1) i = 1, 2, \dots, N

在時刻

t 狀態爲

i 的所有單個路徑

(i1,i2,⋯,it) 中概率最大值的路徑的第

t−1 個結點

ψ t (i) = arg max 1 \leq j \leq N [δ t - 1 (j) a j i] i = 1, 2, \dots, N

維特比算法：
輸入：模型

λ=(A,B,π) 和觀測數據

O=(o1,o2,⋯,oT)
輸出：最優路徑

I∗=(i∗1,i∗2,⋯,i∗T)
1. 初始化

δ 1 (i) = π i b i (o 1) i = 1, 2, \dots, N ψ 1 (i) = 0

2. 遞推
對

t=2,3,⋯,T

δ t (i) = max 1 \leq j \leq N [δ t - 1 (j) a j i] b i (o t) i = 1, 2, \dots, N ψ t (i) = arg max 1 \leq j \leq N [δ t - 1 (j) a j i] i = 1, 2, \dots, N

3. 終止

P * = max 1 \leq j \leq N δ T (i) i * T = arg max 1 \leq j \leq N [δ T (i)]

4. 最優路徑回溯
對

t=T−1,T−2,⋯,1

i * t = ψ t + 1 (i * t + 1)

求得最優路徑

I∗=(i∗1,i∗2,⋯,i∗T)

機器學習模型LaTeX公式版：隱馬爾科夫模型

通過f-string編寫簡潔高效的Python格式化輸出代碼

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

機器學習模型LaTeX公式版：隱馬爾科夫模型

機器學習模型LaTeX公式版：支持向量機

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結