一、摘要
文章提出了一種基於圖神經網絡並結合多種詞典的命名實體識別方法,主要的新意是讓模型自動去學習詞典的特徵,而不是像《Incorporating dictionaries into deep neural networks for the Chinese clinical NER》那樣基於人工的策略去構建。
二、簡介
傳統基於人工模板和特徵的方法的模型如【最長匹配】、【最短匹配】會遇到錯誤匹配的問題,如下圖:
而且不同字典的同一實體的表示也不同,也會對匹配造成困擾。
作者在幾個數據集中驗證了匹配錯誤的問題:
The entity conflict rate (ECR) is defined as the ratio of non-identical overlapping entity matches to all unique entities matched with all gazetteers
The ECR of OntoNotes, MSRA, Weibo-NER and E-commerce-NER are respectively 39.70%, 44.75%, 36.10% and 46.05%.
而文章引入了圖結構,讓模型自己去學習一種模板融合字典信息,這樣有助於減輕錯誤匹配的問題。
三、模型
1、構圖
首先根據詞典將文本構成一個圖,構圖過程如下:
- 節點:每一個字符作爲一個結點,每一種詞典的每一類對應一對節點(起始與結束),上方有四種詞典,因此有四對節點。
- 邊:(1) 按文本中詞的順序連接構成圖中黑色的邊 (2) 對文本中每一個匹配到的字典中的實體,如上圖所示連接起包含起始和結束節點的對應詞典類型的邊(圖中彩色的邊)。
2、加工
構造好圖後,便依次經過GGCN、LSTM、CRF進行命名實體識別。
四、實驗結果
-
首先是與BaseLine比較:
其中w/o
表示不使用外部詞典。 -
數據集劃分比較
文章爲了證明字典的有效性,對測試集的句子進行了以下分類:
- All: 句子中所有實體都在訓練集中出現過。
- Some :句子中的部分實體都在訓練集中出現過。
- None:句子中沒有實體在訓練集中出現過。 (1) 所有的實體都在字典中 (2) 部分實體在字典中。(3) 沒有實體在字典中。
-
Ablation Study
論文進一步實驗證明了模型給出了三類信息:(1) 邊界信息。(2) 實體類型信息。(3) 來源信息
-
fixed coefficients
指: 在GGCN中不同類型的邊的信息的傳遞有不同權重,用表示。這裏把固定爲1。這證明了字典本身會引入噪聲的。 -
AI1G
表示把所有的字典集合爲一個字典,捨去掉Type信息。證明了字典能夠給出邊界信息。 -
1T1G
表示一種類型的實體一個字典,具有type信息。證明了字典給出了Type信息。 -
our model
指一個詞典中同樣可能有不同類的實體。證明了字典給出了來源信息。