論文筆記: Quantifying Similarity between Relations with Fact Distribution

Author: Weize Chen, Hao Zhu, Xu Han, Zhiyuan Liu, Maosong Sun

Tsinghua, CMU

來源：ACL2019

鏈接:https://arxiv.org/pdf/1907.08937.pdf

動機

本文工作的核心目的是探究如何有效的量化關係的相似性。作者動作的動機是一個直覺，即關係的相似性和它對應的實體對有明顯相關性，例如，關係爲“trade to”或者”play for”的實體對通常爲運動員和俱樂部，而“live”這種關係的實體對則通常爲人和地點。作者將這個想法，進行了數學抽象，即將關係的相似轉變爲求解條件概率分佈P(h,t|r)的相似度。對於分佈相似度的求解，直接可以想到的就是利用KL散度。這裏一個比較實際的問題是，KL散度在比較大的實體對空間裏，基本不可解。考慮到這個因素，作者又提出了基於採樣的算法來求解相應的KL散度。
在此基礎上，作者希望通過設計和實驗，更進一步討論以下幾個問題：

根據本文算法計算的關係相似度相比人工判斷有多大的差距？
開放性的關係不可避免的會出現抽取關係的冗餘，那麼如何有效的減少冗餘呢？
量化相似度可以達到什麼程度？用最好的關係抽取模型會發生相似性判斷錯誤麼？
相似度計算有沒有啓發式的負採樣算法？
相似度可不可以作爲關係抽取softmax-margin訓練中的可適應性間隔呢？

形式化定義

在量化關係相似度之前，論文依據頭尾實體的概率分佈給出了關係的一個形式化的數學表達。首先定義一個映射： $F_{\theta}：\epsilon × R × \epsilon \rightarrow \mathscr{R}$ ，將一個三元組代表的關係事實 $(h,r,t) \in G = \epsilon × R × \epsilon$ 映射成一個標量，其中 $\epsilon$ 是實體集合， $R$ 是關係集合。回到本文初始動機，從概率視角審視，將F函數看成r爲參數，h,t爲變量的二元函數，即 $F_{\theta}( h,t;r) = \mu_{θ 1}(h; r) + \mu_{θ2}(t; h,r)$ 。對於條件概率分佈 $\mu_{θ 1}$ 和 $\mu_{θ 2}$ 可以通過神經網絡去模擬，作爲概率分佈，我們需要再添加歸一化，這樣這個條件分佈的表達如下:
$\mu_{θ 1}(h;r) = log \frac{exp( \widetilde{\mu}_{θ 1}(h;r))}{\sum_{h'}exp( \widetilde{\mu}_{θ 1}(h';r))}$

$\mu_{θ 2}(t;h,r) = log \frac{exp( \widetilde{\mu}_{θ 2}(t;h,r))}{\sum_{t'}exp( \widetilde{\mu}_{θ 2}(t';h,r))}$
$\widetilde{\mu}_{θ 1}(h;r) = MLP_{θ1}(r)^Th$
$\widetilde{\mu}_{θ 2}(t;h,r) = MLP_{θ2}([h;r])^Th$
這樣， $P_θ( h,t | r ) = exp(\mu_{θ 1}(h;r) + \mu_{θ 2}(t;h,r)) = exp(log \frac{exp( \widetilde{\mu}_{θ 1}(h;r))}{\sum_{h'}exp( \widetilde{\mu}_{θ 1}(h';r))} + log \frac{exp( \widetilde{\mu}_{θ 1}(h;r))}{\sum_{h'}exp( \widetilde{\mu}_{θ 1}(h';r))})$

這樣loss function就被認爲是是 $P_{\theta}$ 的最大似然的負log，即
$\mathcal{}{L}(G) = \sum_{(h,r,t \in G)} − log P_θ( h,t |r )$

相似性量化

基於前面的形式化定義，本文假定可以通過計算概率 $P_{θ^*}( h,t | r )$ 的相似度來量化關係的相似度，這也和motivation裏的基本直覺是一致的，即如果兩個關係的實體對是相似的，那麼這兩個關係也相似；反正，則有較大差異。
那麼如何衡量兩個概率分佈的相似度呢？自然的工具就是Kullback–Leibler divergence,即KL散度， $D_{KL} ( P_{θ^*}( h,t | r1 ) || P_{θ^*}( h,t | r2 )) = E_{h,t \sim P_{θ^*}( h,t | r1 ) } log\frac{P_{θ^*}( h,t | r1 )}{P_{θ^*}( h,t | r2 )}$
考慮到KL散度的非對稱性，文中將關係相似定義爲：
$S(r1,r2) = g(D_{KL} ( P_{θ^*}( h,t | r1 ) || P_{θ^*}( h,t | r2 )),D_{KL} ( P_{θ^*}( h,t | r2 )|| P_{θ^*}( h,t | r1 )))$
函數 g(x,y)是一個人工定義的函數來修正對稱性，因爲相似度的取值爲非負，且滿足單調遞減，所以指數族是一個好的選擇，本文選取的是 $g(x,y) = e^{− max(x,y)}$

表1 關係量化方式一覽

表一對比了本文和之前其他工作的關係相似度量化方式，可以看出其他方式情形將關係編碼成向量，然後通過計算向量的相似度。本文認爲之所以直接使用分佈的差異來量化關係而不是比較關係編碼後的向量，有兩個原因：1）關係Embedding的過程中會丟失很多細節；2）用分佈差異來量化，可解釋性強。以圖1爲例，兩個關係“be an unincorporated community in”(藍色點)和“be a small city in”（紅色點）。點的座標是通過T-sne將採樣的實體點的Embedding降維之後級聯的，兩個大的點，是通過TransE編碼的關係向量。可以看出，編碼後的關係在向量空間中比較接近，但是兩個關係其實差異還是比較明顯的，從實體的分佈可以較爲清晰的看出。

圖1 關係量化方式對比差異示例

採樣方法

實際到此爲止，整個論文的思路已經較爲完成，但是具體去實現，還差了最後一環，在一個大數據集或者開放域環境中，KL散度的計算需要遍歷所有樣本空間，因而是不可解的。解決這個問題的方法，自然是利用採樣來實現，本文使用的是蒙特卡洛方法。具體如下：
$D_{KL} ( P_{θ^*}( h,t | r1 ) || P_{θ^*}( h,t | r2 )) \\ = E_{h,t \sim P_{θ^*}( h,t | r1 ) } log\frac{P_{θ^*}( h,t | r1 )}{P_{θ^*}( h,t | r2 )}\\ =\frac{1}{|S|}\sum_{h,t \in S}log\frac{P_{θ^*}( h,t | r1 )}{P_{θ^*}( h,t | r2 )}$
S是根據概率 $P_{θ^*}( h,t | r1 )$ 抽樣得到的實體對，具體操作時採用序列抽樣的方式，即首先依概率 $\mu_1$ 抽樣h, 在根據h依概率 $\mu_2$ 抽樣t。

數據集構建

本文使用了三個數據集，wikipeda (實體來自item，使用Reverb自動抽取，去掉特別高頻的關係，使數據集均衡)，FB15k （Freebase的子集），TACRED （較大規模的有監督關係抽取數據集），參見表2。

表2 本文使用的數據集

實驗和討論

通過實驗驗證本文最初提出的幾個關鍵問題：

根據本文算法計算的關係相似度相比人工判斷有多大的差距？
本文通過了9個本科生進行人工標註，去衡量從wikipeda中抽取的360個關係對的相似性，並進行打分。打分原則：
4分，兩個關係完全等價，如（study at, be educated at)
3分，兩個關係描述同一個主題，且關聯的實體類型相同，如 (be the director of, be the screenwriter of)
2分，兩個關係描述同一個主題，但實體類型不同，如 (be headquartered in, be founded in)
1分，僅有語義的聯繫，如 (be the developer of, be the employer of)
0分，毫不相關，如 (be a railway station locates in, be published in)
以Spearman 相關係數作爲指標，對比本文的方法和其他4個基線方法，可以看出，本文的方法明顯更接近人類的判斷，可以達到0.63左右，如圖2所示

圖2 Spearman correlations between human judgment and models’ outputs

開放性的關係不可避免的會出現抽取關係的冗餘，那麼如何有效的減少冗餘呢？
有效減少開放域關係抽取帶來的冗餘，是本文提出的關係量化的一個重要應用。爲了驗證效果，本文設計了一個玩具實驗和真實數據實驗來進行驗證。
玩具實驗：
應用中國餐館過程從wiki中抽取關係，並將其分成若干個子關係。具體來說，對於一個關係r，它當前已經有m個子關係了，對於一個新的r的實例，將其劃分爲一個新的子關係的概率爲 $p = \frac{\alpha}{\alpha+n+1}$ , 而將它劃分爲已知的第k個子關係的概率爲 $p = \frac{n_k}{\alpha+n+1}$ 。其中 $\alpha$ 是超參宿，文章中取值爲1， $n_k$ 爲第k個子關係的實例數， $n$ 爲r的所有子關係的實例數。然後過濾掉所有實例數少於50的子關係，共計得到所有關係1165個。在此基礎上，應用關係相似度的量化方法進行關係合併，最終得到的結果如表3所示。可以看出本文的方法在Open IE去除冗餘的過程中有明顯的優勢。

表3 The experiment results on the toy dataset

量化相似度可以達到什麼程度？用最好的關係抽取模型會發生相似性判斷錯誤麼？
對於真實數據集的評估，本文采用ReVerb構建數據集，在訓練的時候不同的模式就當成是不同的關係，然後進行關係合併。因爲對於真實數據集，無法遍歷數據集來構建準確率和召回率這樣的評價指標，作者在這裏使用了拒絕採樣和重要性採樣的技巧，去構建評價指標，最終的結果如圖3所示。可以看出本文的算法在準確率較高的情況下,可以達到一個比較高的召回率. 這裏對於評價指標的定義如下:
$Recall = E_{x \sim U}I[\hat{f}(x) = 1] \approx \sum_{i=1}^n I[\hat{f}(x_i) = 1] \hat{w_i}$
$Precision = E_{x \sim U'}I[f(x) = 1] \approx \frac{1}{n}\sum_{i=1}^n I[f(x_i) = 1]$
其中, $x = (r1,r2) \in R \times R$ 代表一對關係實例, $f(x) \in {0,1}$ 代表 $x$ 的label, 及表示關係r1和r2是同一個關係; $\hat{f}(x)$ 是對於 $x$ 的預測,即 $S(r1,r2) > 閾值\lambda$ 。分佈U 是從所有 $f(x)=1$ 的樣本的一個均勻分佈; U’是 $\hat{f}(x)=1$ 的樣本的一個均勻分佈。 $\hat{w_i}$ 代表樣本重要性。

圖3 Precision-recall curve on Open IE task

對於第二個問題，圖4顯示了模型的輸出在關係預測和關係提取任務上的分散關係的相似性等級分佈。從圖4a和4b中，我們可以觀察到最具干擾性的關係是最相似的關係，這也說明：即使在這些任務上的最佳模型在最相似的關係中仍然會犯錯誤，同時也反映了啓發式方法對指導模型更加關注相似關係之間的邊界的重要性。

圖4 Similarity rank distributions of distracting relations on different tasks and datasets

相似度計算有沒有啓發式的負採樣算法？
本文嘗試使用關係類型約束進行負採樣，但是與統一採樣相比，看不到任何改進。具體參考論文的附錄E部分。論文的第8節討論了應用容易混淆的關係來進行負採樣，效果如圖5所示。

圖5 Improvement of using similarity in a heuristic method for negative sampling

相似度可不可以作爲關係抽取softmax-margin訓練中的可適應性間隔呢？
可以將相似度作爲一個可適應的margin 納入softmax-margin, 將原來loss中的關係相似代價如， $cost(r^{(i)},r)$ 替換成 $\alpha S(r^{(i)},r)$ . 表4 證明關係模型的整體表現還是有一定幅度的提升。

表4 Improvement of using similarity in softmaxmargin loss

其他

本文有一個關於前面recall的證明非常的精彩，很好的應用了拒絕採樣，重要性採樣和自正規化技巧，具體參見論文附錄A。

論文筆記: Quantifying Similarity between Relations with Fact Distribution

論文筆記: Quantifying Similarity between Relations with Fact Distribution

Author: Weize Chen, Hao Zhu, Xu Han, Zhiyuan Liu, Maosong Sun

Tsinghua, CMU

來源：ACL2019

鏈接:https://arxiv.org/pdf/1907.08937.pdf

動機

形式化定義

相似性量化

採樣方法

數據集構建

實驗和討論

其他

關係抽取專題（一）Relation Classification via Convolutional Deep Neural Network

NLP基礎學習7-word2vec

NLP論文精讀系列（一）BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

NLP基礎學習2--常見數據集和評價指標

NLP基礎學習6--神經網絡基礎

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結