論文筆記:Simplify the Usage of Lexicon in Chinese NER Minlong

一、摘要

以前我們已經提到過一篇結合字典進行中文命名實體識別的文章《Chinese NER Using Lattice LSTM》. 這個方法能夠一定程度解決分詞錯誤。然而,這個方法有一個重要的缺陷,就是效率低下,其在源碼的issue中也提到了,目前竟然不支持並行化。因此,這篇文章希望設計出一種更加有計算效率的方式。

二、模型

該論文主要是在底層字和詞的表示上進行了創新。首先文章總結了Lattice Lstm成功的原因:

  • 其保存了所有可能匹配的單詞。
  • 其可以將預訓練好的word embedding嵌入到系統中。
  • 模型具有attention機制自動給單詞賦權重。

基於此三個方法,文章提出了一種新的對輸入進行編碼的方式。這樣的方法是一種集合編碼的方法。對每個字符c使用集合B(c),M(c),E(c),S(c)B(c),M(c),E(c),S(c)編碼其字符具有的詞信息。編碼規則如下

  • B(c)B(c)集合:包含所有以字符c爲起始的詞
  • M(c)M(c)集合:包含所有以字符c爲中間字的詞
  • E(c)E(c)集合:包含所有以字符c爲結束字的詞
  • S(c)S(c)集合:c單獨組成一個詞

如果集合爲空則成員爲None

舉例來說:

suppose that {c1,c2},{c1,c2,c3},{c2,c3,c4}\{c1, c2\}, \{c1, c2, c3\}, \{c2, c3, c4\} , Consider the sentence s={c1,,c5}s = \{c1, · · · , c5\} and and {c2,c3,c4,c5}\{c2, c3, c4, c5\} match the lexicon. Then, for c2c_2, B(c2)={{c2,c3,c4},{c2,c3,c4,c5}}B(c2) = \{\{c2, c3, c4\}, \{c2, c3, c4, c5\}\}, M(c2)={{c1,c2,c3}}M(c2) = \{\{c1, c2, c3\}\}, E(c2)={{c1,c2}}E(c2) = \{\{c1, c2\}\}, and S(c2)={NONE}S(c2) = \{NONE\}

這樣,融合詞的表示,我們構造新型的字向量表示:
在這裏插入圖片描述
其中Vs(X)V^s(X)用於詞集合編碼爲固定大小的向量,最後作者採用的方法爲:
在這裏插入圖片描述
其中ew(w)e^w(w)爲對應詞的word embedding, z(w)z(w)是固定的單詞出現的頻數

We set c to the value that there are 10% of training words occurring less than c times within the statistic data set

三、實驗結果

具體參看論文,這裏就不贅述了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章