一、摘要
以前我們已經提到過一篇結合字典進行中文命名實體識別的文章《Chinese NER Using Lattice LSTM》. 這個方法能夠一定程度解決分詞錯誤。然而,這個方法有一個重要的缺陷,就是效率低下,其在源碼的issue中也提到了,目前竟然不支持並行化。因此,這篇文章希望設計出一種更加有計算效率的方式。
二、模型
該論文主要是在底層字和詞的表示上進行了創新。首先文章總結了Lattice Lstm
成功的原因:
- 其保存了所有可能匹配的單詞。
- 其可以將預訓練好的
word embedding
嵌入到系統中。 - 模型具有
attention
機制自動給單詞賦權重。
基於此三個方法,文章提出了一種新的對輸入進行編碼的方式。這樣的方法是一種集合編碼的方法。對每個字符c
使用集合編碼其字符具有的詞信息。編碼規則如下
- 集合:包含所有以字符
c
爲起始的詞 - 集合:包含所有以字符
c
爲中間字的詞 - 集合:包含所有以字符
c
爲結束字的詞 - 集合:
c
單獨組成一個詞
如果集合爲空則成員爲None
舉例來說:
suppose that , Consider the sentence and and match the lexicon. Then, for , , , , and
這樣,融合詞的表示,我們構造新型的字向量表示:
其中用於詞集合編碼爲固定大小的向量,最後作者採用的方法爲:
其中爲對應詞的word embedding
, 是固定的單詞出現的頻數
We set c to the value that there are 10% of training words occurring less than c times within the statistic data set
三、實驗結果
具體參看論文,這裏就不贅述了