1.概率圖
在統計概率圖(probability graph models)中,參考宗成慶老師的書:
在概率圖模型中,數據(樣本)由公式建模表示:
- 表示節點,即隨機變量(放在此處的,可以是一個token或者一個label),具體地,用 爲隨機變量建模,注意現在是代表了一批隨機變量(想象對應一條sequence,包含了很多的token),爲這些隨機變量的分佈;
- 表示邊,即概率依賴關係,label和label之間的關係。
1.1.有向圖 vs. 無向圖
上圖可以看到,貝葉斯網絡(信念網絡)都是有向的,馬爾科夫網絡無向。所以,貝葉斯網絡適合爲有單向依賴的數據建模
,馬爾科夫網絡適合實體之間互相依賴的建模。
具體地,他們的核心差異表現在如何求 ,即怎麼表示 這個的聯合概率。
1.1.1.有向圖
對於有向圖模型,這麼求聯合概率:
應該這樣表示他們的聯合概率:
應該很好理解吧。
1.1.2.無向圖
對於無向圖,一般就指馬爾科夫網絡。
如果一個graph太大,可以用因子分解將 寫爲若干個聯合概率的乘積。咋分解呢,將一個圖分爲若干個“小團”,注意每個團必須是“最大團”(就是裏面任何兩個點連在了一塊,具體……算了不解釋,有點“最大連通子圖”的感覺),則有:
, 其中 ,公式應該不難理解吧,歸一化是爲了讓結果算作概率。
所以像上面的無向圖:
其中, 是一個最大團 上隨機變量們的聯合概率,一般取指數函數的:
好了,管這個東西叫做勢函數。注意 是否有看到CRF的影子。
那麼概率無向圖的聯合概率分佈可以在因子分解下表示爲:
1.2.馬爾科夫假設&馬爾科夫性
這個也屬於前饋知識。
馬爾科夫假設
應該是齊次馬爾科夫假設,這樣假設:馬爾科夫鏈$(x_1,...,x_2)$裏的$x_1$總是隻受$x_{i-1}$一個人的影響。
馬爾科夫假設這裏相當於就是個2-gram,自然語言處理中,即一個詞只受前一個詞的影響。
馬爾科夫過程呢?即,在一個過程中,每個狀態的轉移只依賴於前n個狀態,並且只是個n階的模型。最簡單的馬爾科夫過程是一階的,即只依賴於前一個狀態。
- 馬爾科夫性
馬爾科夫性是保證或者判斷概率圖是否爲概率無向圖的條件。
三點內容:a. 成對,b. 局部,c. 全局。
1.3.序列建模
爲了號召零門檻理解,現在解釋如何爲序列問題建模。
序列包括時間序列以及普通序列,但兩者無異。連續的序列在分析時也會先離散化處理。常見的序列有如:時序數據、句子、語音數據等等。
廣義下的序列有這些特點:
- 節點之間有關聯依賴性/無關聯依賴性
- 序列的節點是隨機的/確定的
- 序列是線性變化/非線性的
- ……
對不同的序列有不同的問題需求,常見的序列建模方法總結有如下:
(1)擬合
,預測未來節點(或走勢分析):
a. 常規序列建模方法:AR、MA、ARMA、ARIMA
b. 迴歸擬合
c. Neural Networks
(2)判斷不同序列類別
,即分類問題:HMM、CRF、General Classifier(ML models、NN models)
(3)不同時序對應的狀態的分析,即序列標註問題:HMM、CRF、RecurrentNNs
2.概率無向圖模型
概率無向圖模型(probabilistic undirected graphical model),又稱馬爾科夫隨機場(Markov random field),是一個可以由無向圖表示的聯合概率分佈。
圖(graph)由結點(vertex)和連接結點的邊(edge)組成的集合。結點和邊分別記做v和e,結點和邊的集合分別記做V和E,圖記做G=(V,E),無向圖指的是邊沒有方向的圖。
概率圖模型(probabilistic graphical model)是由圖表示的概率分佈。設有聯合概率分佈P(Y),Y是隨機變量。由無向圖G=(V,E)表示概率分佈P(Y),即在圖中,結點表示一個隨機變量,,邊表示隨機變量之間的概率依賴關係。
給定一個聯合概率分佈P(Y)和表示它的無向圖G,下面定義無向圖表示的隨機變量之間存在的成對馬爾科夫性(pairwise Markov property)、局部馬爾科夫性(local Markov property)和全局馬爾科夫性(global Markov property)。
- 成對馬爾科夫性
設u和v是無向圖G中任意兩個沒有邊連接的結點,結點u和v分別對應隨機變量和,所有其他結點記爲O,對應的隨機變量是。
成對馬爾科夫性是指給定隨機變量的條件下隨機變量和是條件獨立的,即
- 局部馬爾科夫性
設是無向圖G中任意一個結點,W是與v有邊連接的所有結點,O是v,W以外的其他所有結點,v表示的隨機變量是,W表示的隨機變量是,O表示的隨機變量是。
局部馬爾科夫性是指在給定隨機變量的條件下隨機變量與隨機變量是獨立的,即
如圖所示:
- 全局馬爾科夫性
設結點集合A,B是在無向圖G中被結點集合C分開的任意結點集合,結點集合A,B和C所對應的隨機變量分別是,,
全局馬爾科夫性是指給定隨機變量條件下隨機變量和是條件獨立的,即:
概率無向圖模型的定義:
設有聯合概率分佈P(Y),由無向圖G=(V,E)表示,在圖G中,結點表示隨機變量,邊表示隨機變量之間的依賴關係。如果聯合概率分佈P(Y)滿足成對、局部或全局馬爾科夫,則稱此聯合概率分佈爲概率無向圖模型(probability undirected graphical model),或馬爾科夫隨機場(Markov random filed)
2.1.概率無向圖模型的因子分解
對給定的概率無向圖模型,我們希望將整體的聯合概率寫成若干子聯合概率的乘積的形式,也就是將聯合概率進行因子分解。
無向圖G中任何兩個結點均有邊連接的結點子集
稱爲團(clique),並且不能再加進任何一個G的結點使其成爲一個更大的團,則稱C爲最大團(maximal clique)。
例子:
圖中由兩個結點組成的團有5個:(Y1,Y2),(Y1,Y3),(Y3,Y2),(Y4,Y3),(Y4,Y2)
有兩個最大團:(Y1,Y2,Y3),(Y3,Y2,Y4)
(Y1,Y2,Y3,Y4)不是一個團,因爲Y1和Y4沒有邊連接。
將概率無向圖模型的聯合概率分佈表示爲其最大團上的隨機變量的函效的乘積形式的操作,稱爲概率無向圖模型的因子分解(factorization)。
給定概率無向圖模型,設其無向圖爲G,C爲G上的最大團,表示C對應的隨機変量。那麼概率無向圖模型的聯合概率分佈P(Y)可寫作圖中所有最大團C上的函數的乘積形式,即
Y表示所有的隨機變量;
其中,Z是規範化因子(normalization factor),定義如下:
規範化因子保證P(Y)構成一個概率分佈,函數稱爲勢函數(potential function),定義如下:
概率無向圖模型的因子分解的定義:
概率無向圖模型的聯合概率分佈P(Y)定義如下:
C是無向圖的最大團
是C的結點對應的隨機變量
是C上定義的勢函數
乘積在無向圖上所有最大團上進行的。