一、摘要

以前我們已經提到過一篇結合字典進行中文命名實體識別的文章《Chinese NER Using Lattice LSTM》. 這個方法能夠一定程度解決分詞錯誤。然而，這個方法有一個重要的缺陷，就是效率低下，其在源碼的issue中也提到了，目前竟然不支持並行化。因此，這篇文章希望設計出一種更加有計算效率的方式。

二、模型

該論文主要是在底層字和詞的表示上進行了創新。首先文章總結了Lattice Lstm成功的原因:

其保存了所有可能匹配的單詞。
其可以將預訓練好的word embedding嵌入到系統中。
模型具有attention機制自動給單詞賦權重。

基於此三個方法，文章提出了一種新的對輸入進行編碼的方式。這樣的方法是一種集合編碼的方法。對每個字符c使用集合 $B(c),M(c),E(c),S(c)$ 編碼其字符具有的詞信息。編碼規則如下

$B(c)$ 集合：包含所有以字符c爲起始的詞
$M(c)$ 集合：包含所有以字符c爲中間字的詞
$E(c)$ 集合：包含所有以字符c爲結束字的詞
$S(c)$ 集合：c單獨組成一個詞

如果集合爲空則成員爲None

舉例來說:

suppose that $\{c1, c2\}, \{c1, c2, c3\}, \{c2, c3, c4\}$ , Consider the sentence $s = \{c1, · · · , c5\}$ and and $\{c2, c3, c4, c5\}$ match the lexicon. Then, for $c_2$ , $B(c2) = \{\{c2, c3, c4\}, \{c2, c3, c4, c5\}\}$ , $M(c2) = \{\{c1, c2, c3\}\}$ , $E(c2) = \{\{c1, c2\}\}$ , and $S(c2) = \{NONE\}$

這樣，融合詞的表示，我們構造新型的字向量表示：

其中 $V^s(X)$ 用於詞集合編碼爲固定大小的向量，最後作者採用的方法爲:

其中 $e^w(w)$ 爲對應詞的word embedding, $z(w)$ 是固定的單詞出現的頻數

We set c to the value that there are 10% of training words occurring less than c times within the statistic data set

三、實驗結果

具體參看論文，這裏就不贅述了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文筆記：Simplify the Usage of Lexicon in Chinese NER Minlong

文章目錄

一、摘要

二、模型

三、實驗結果

Python 爬蟲：Spring Boot 反爬蟲的成功案例

Java中止線程的方式

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

CS294-112: Introduction to Reinforcement Learning

排列問題的重參數技巧

論文筆記：Simplify the Usage of Lexicon in Chinese NER Minlong

CS294-112: Policy Gradients

自然語言處理名言

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結