ESIM模型的“全能版”!網易易盾實驗室研究員解讀HIM混合推理模型

“知物由學”是網易易盾打造的一個品牌欄目,詞語出自漢·王充《論衡·實知》。人,能力有高下之分,學習才知道事物的道理,而後纔有智慧,不去求問就不會知道。“知物由學”希望通過一篇篇技術乾貨、趨勢解讀、人物思考和沉澱給你帶來收穫的同時,也希望打開你的眼界,成就不一樣的你。當然,如果你有不錯的認知或分享,也歡迎在“網易易盾”公衆號後臺投稿。

 


 

導讀:自然語言處理的ESIM模型目前已在多家公司的內容相關性搜索模型、人機對話模型上較爲廣泛的使用,業內不少人對ESIM模型也耳熟能詳。實際上,ESIM模型只是本篇文章要介紹的HIM模型的閹割版,後者潛力很大,能應用在包括內容安全在內的多個領域。近日,網易易盾實驗室的研究員撰寫了此篇文章,對HIM模型進行簡單解讀。

大家對自然語言處理的ESIM模型可能已經耳熟能詳,但是它其實是這裏介紹的HIM模型的閹割版。

自然語言推理NLI(natrual language inferrence,NLI)一直是人工智能自然語言處理研究的一個熱門方向。但人類語言的推理也一直是一個極具挑戰的任務。舉個例子,文本蘊含關係描述的是兩個文本之間的推理關係,其中一個文本作爲前提(premise),另一個文本作爲假設(hypothesis),如果根據前提P能夠推理得出假設H,那麼就說P蘊含H,記做P→H。這跟一階邏輯中的蘊含關係是類似的。

這裏解釋也許還有些抽象,在實際的應用中,前提句子可以是用戶輸入的query查詢短語,假設句子可以是新聞庫中一篇新聞的標題、正文、摘要,或者是網絡音樂曲庫庫中一首歌曲的介紹、歌詞。推理出來的關係,就是搜索查詢與搜索結果對象的相關性。

在內容安全檢測應用中,前提句子亦可以是一條待檢測的數據,假設句子就是舉報違禁樣本庫中一條樣本記錄,推理出來的關係,就是待檢測數據是否和違禁內容相關。

要完成自然語言的文本推理任務,最近stanford大學貢獻了一個重要的數據集——SNLI。這幫助廣大研究人員能夠訓練更復雜的模型。使用這個數據訓練的序列推理模型能夠得到比之前已有的各種最先進的模型更優秀的模型。這也預示着,很多已有的序列推理算法的潛力都還沒有挖掘出來。

由於句法和語義聯繫緊密,在自然語言推理任務中,挖掘句法對我們十分的重要。因此在自然語言研究任務中,我們需要把大部分的精力投入到利用循環神經網對句法分析樹信息進行編碼。在神經網絡中對局部推理和推理組合進行建模。


1、混合神經網絡推理模型


在自然語言推理神經網絡中,有三個組成部分:輸入編碼、局部推理和推理組合。圖一展示的是這種結構的高層架構的三個重要組成部分。左邊展示的是序列推理模型ESIM,右邊展示是融合句法分析信息的樹形LSTM。

圖 1推理神經網絡模型的組成


首先我們介紹輸入編碼的部分。

在輸入編碼的部分中,使用的是雙向LSTM(BILSTM)作爲自然語言推理的基本模塊。BILSTM用來對輸入的前提和假設進行以下的編碼:

在基本的LSTM單元中,LSTM使用一組soft門限開關和記憶單元來控制信息的傳遞,這種結構能夠有效地跟蹤序列中長距離的信息和語法依賴關係。而且雙向LSTM從句子序列的最左端和最右端進行了前向和後向的計算,兩個方向計算所得的隱層向量在每個時刻點連接起來,在效果上比其他的遞歸記憶模塊(比如GRU單元)來的好。

爲了有效分析自然語言推理中句法結構,在推理中,我們使用瞭如圖2所示的樹形LSTM。通過樹形LSTM,我們把前提和假設兩個句子的句法分析樹的信息編碼起來。

圖 2樹形LSTM

根據以下(3)-(10)的計算,句法分析樹中的每個節點使用如圖2所示的tree-LSTM的記憶單元進行計算。每個節點中,輸入向量

和這個節點的兩個子節點的隱藏向量

作爲輸入信息進行計算,得到當前節點的隱藏向量

。一個節點的輸入用來設置4個門限開關的閾值:輸入門,輸出門,兩個遺忘門。而且記憶單元

的門閥閾值也由左遺忘門和右遺忘門的閾值計算得到。在當前的輸入編碼層中,輸入

是葉子節點的詞嵌入編碼向量,而非葉子節點由於沒有對應的具體的詞語,我們使用一個特殊的向量

作爲輸入。

類似於未登錄詞所對用的詞嵌入向量。

 

值得一提的是,這與下面我們要介紹的推理組合層有很大的不同。在推理組合層中,樹形LSTM使用的輸入信息是局部推理信息的編碼,而且在樹裏面的所有節點上都是有具體對應的,也就是說在推理組合層中,不需要用未登錄詞向量的手段來解決問題。

 

2.局部推理建模

 

對前提句子和假設句子進行子句子級別的局部推理建模是決定整個推理的重要環節。爲了更仔細地進行局部推理,我們對序列和句法樹模型繼續做更進一步地挖掘。其中序列模型對詞和詞的上下文進行局部推理相關信息的收集;樹形LSTM進行對詞組和從句級別的局部信息收集。
這裏的局部信息推理模型涉及到對前提句子/假設句子相互之間各個句子子部分的硬對齊操作和軟對齊操作。這種對齊操作和傳統自動機器翻譯中的對齊方法很相近。具體的實現過程,可以通過計算soft的注意力分數實現。
前人的工作將這種操作分解成一下過程:
前提句子或者是假設句子的序列轉化成詞嵌入向量的詞袋。前提句子內的每個詞各自與假設句子中的每個詞計算得到的注意力分數作爲soft對齊的關聯程度。值得注意的是,這種基本做法儘管有效並且是目前能夠取得最好結果的做法,但是使用預訓練的詞嵌入向量本身忽視了NLI任務中詞語的上下文信息。
這裏的軟對齊操作是使用一下計算公式的注意力權重計算。

它是前提句子序列和假設句子序列的隱狀態之間的相似度計算。這是通過多次實驗得到的,使用更復雜的關係計算方式,並不能得到更好的效果提升。這裏公式中的計算對象,是前面BILSTM計算得到的隱狀態向量,也可以是樹形LSTM計算得到的隱狀態向量

序列上的局部推理信息


局部推理主要是由注意力權重

決定的,它代表了前提句子和假設句子的局部相關性。舉個例子,前提句子某個詞語的隱狀態向量

,它已經包含了詞語本身和詞語上下文的信息,而且在假設語句中和它相關的語義信息通過

進行識別和組合。比如,兩個句子間的相互關聯和組合表達,可以通過以下方式:


假設語句中內容

會通過與

的相關性進行選擇和參與加權表示。
句法分析樹上的局部推理信息
這裏所討論的句法分析樹是成分句法分析樹(constituency parser.),而不是依存句法分析樹(Dependency Parsing)。成分句法分析樹用來收集詞組和從句的局部推理信息。當分析樹中的每個節點的隱狀態都計算好了之後,這些分析樹中的節點都是沒有區別的,唯一要做的就是使用注意力分值來分析它們之間的關係。我們還是使用

來計算前提句子和假設句子的所有節點配對之間的注意力權重。這種做法把前提句子、假設句子中含有的所有的詞語、成分詞組和從句都聯繫起來了。我們計算得到這種關係信息,並把它們傳遞到接下來的神經網絡層。
增強局部推理信息
我們進一步增強局部信息收集。我們計算隱狀態向量兩兩之間的差值向量和元素點積結果向量。這種操作能夠幫助獲得局部推理過程中比較突出和明顯的特徵信息,或者獲得一些類似矛盾關係的推理信息。差異向量和元素點積結果向量通過和原始的隱狀態向量連接起來,得到增強後的特徵。

這種隱狀態的增強操作,對句子序列BILSTM模型和樹形LSTM模型的隱狀態向量都進行操作。這種操作是一種對序列特徵進行抽取高階交互特徵的方法。然而,根據實驗的嘗試,我們也發現對這種高階的交互特徵進行進一步的前向神經網絡的計算,增加頂層隱狀態向量到前面我們討論的特徵連接的結果向量上,並不會得到更好的效果。

3.推理組合
在推理組合環節中,我們將最終確定前提句子和假設句子的全局關係。在組合層我們對增強版的局部推理信息

進行組合。我們進行句子序列的組合或者進行上下文句法分析樹形的組合。
在句子序列的推理模型中,同樣也使用BILSTM模型進行組合推理信息

,計算方式和前面提到的輸入編碼的操作相同,但是目的不一樣。這裏的主要目的是獲得局部推理信息和以及上下文信息進行組合。

 

在樹形組合過程中,每個樹上的節點的高層次計算主要是進行組合局部推理信息。

在這種組合過程中,由於向量的連接操作,會使得BILSTM、樹形LSTM模型的輸入維度翻倍的增加,導致模型參數的成倍增加。衆所周知,這種參數的成倍增加很容易導致模型潛在的過擬合。爲了避免這種過擬合的後果,在模型中需要對輸入增加一層帶ReLU激活函數的前向神經網絡。
推理的最後是通過池化技術將推理組合得到的結果向量轉化成一個固定長度向量,並且輸入到最終的分類器中來決定最終的全局推理關係。前人的一些向量求和池化方法都對序列長度很敏感並且欠缺魯棒性。我們使用新的策略:同時計算平均池化和最大值池化,把結果串聯連接成一個最終的固定長度的向量。具體的計算方式如下:

 

這種方法通過多次實驗比較,顯示能夠比求和池化的結果有明顯的提升。在樹形推理組合中,最後一步向量的串聯連接稍微有所不同。樹形組合需要將根節點隱狀態向量連接起來。
在最後的分類環節中,模型把得到

的輸入到最後的多層感知器MLP分類器中。MLP有一個tanh激活函數和一個softmax輸出層。帶有輸入編碼、局部推理和推理組合三個模塊的整個模型,本質上還是一個端到端訓練的模型,訓練的損失函數也採用多分類交叉熵的損失函數。
這裏介紹的模型,當只保留對序列句子的推理,捨棄句法分析樹相關的分析推理組件,這時候模型就是增強化的序列推理模型ESIM。ESIM在競賽中已經取得了很不錯的結果。當考慮句法分析樹的信息,通過多層次的樹形LSTM編碼,把這部分的信息和ESIM模型的信息結合起來,比如使用取預測概率的平均值得到句子配對的最終關係標籤,這就是混合推理模型HIM。通過實驗的驗證,融合句法分析的信息的HIM能夠比ESIM模型進一步提升推理的效果(文/易盾實驗室)。

 

歡迎點擊免費體驗網易易盾安全解決方案。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章