[論文筆記] [中文NER] Chinese NER Using Lattice LSTM

原創

土肆

2019-06-10 15:57

論文：Chinese NER Using Lattice LSTM
作者：張嶽 (Yue Zhang)、Jie Yang (GitHub)
錄用：ACL 2018

這篇論文的相關筆記還挺多的，但是第三章的模型部分公式比較多，看着看着就糊塗了，所以自己做了下筆記，並且嘗試把Lattice LSTM部分用圖畫出來，方便自己理解。

3. 模型部分

主要記錄不同模型的輸入向量，以式(0)爲例：
$\frac{南}{1}\frac{京}{2}\frac{市}{3} | \frac{長}{4}\frac{江}{5}\frac{大}{6}\frac{橋}{7} \tag{0}$

若以字對句子進行分割，則句子表達如下：
$s= c_1, c_2, \dots, _m$
其中 $c_j$ 表示句中第 $j$ 個字。
若以詞對句子進行分割，則句子表達如下：
$s= w_1, w_2, \dots, w_m$
其中 $w_i$ 表示句中第 $i$ 個詞。
對於某個字，可以用 $t(i,k)=j$ 表示第 $j$ 個字位於句子中第 $i$ 個詞的第 $k$ 位，因此對於式(0)中的 $\frac{長}{4}，t(2,1) = 4$ 。

下文中的公式編號對應原文中的編號，所以不是連續的。

3.1 Character-Based Model（基於字）

Char
基於單字的模型輸入向量如式(1)：
$\bold{x}_j^e=\bold{e}^e(c_j) \tag{1}$
其中 $c_j$ 表示每個字， $\bold{e}^e$ 表示單字的embedding。
Char + Bichar
基於單字和兩字詞的模型輸入向量如式(3)：
$\bold{x}_j^c=[\bold{e}^c(c_j);\bold{e}^b(c_j,c_{j+1})] \tag{3}$
其中 $\bold{e}^b$ 兩字詞的embedding，分號表示連接兩部分的向量。
Char + softword
基於單字和分詞的模型輸入向量如式(4)：
$\bold{x}_j^c=[\bold{e}^c(c_j);\bold{e}^s(seg(c_j))] \tag{4}$
其中 $\bold{e}^s$ 表示分詞後的詞embedding。

3.2 Word-Based Model（基於詞）

Word
基於詞的模型輸入向量如式(6)：
$\bold{x}_i^w=\bold{e}^w(w_i) \tag{6}$
其中 $w_i$ 表示每個詞， $\bold{e}^w$ 表示詞的embedding。
Integrating character representations
基於詞加上詞所包含的字的模型輸入向量如式(7)：
$\bold{x}_i^w=[\bold{e}^w(w_i);\bold{x}_i^c] \tag{7}$
其中 $\bold{x}_i^c$ 表示詞 $w_i$ 所包含的字對應的向量。
Word + char LSTM
Word + char LSTM’
Word + char CNN
$\bold{x}_i^c= \mathop{max}\limits_{t(i,1)\leq j \leq t(i, len(i))} (\bold{W}_{CNN}^T \begin{bmatrix} \bold{e}(c_{j-\frac{ke-1}{3}})\\ \dots \\ \bold{e}(c_{j-\frac{ke-1}{3}}) \tag{9} \end{bmatrix} +\bold{b}_{CNN})$
其中 $ke=3$ 表示kernal size， $max$ 表示max pooling。

3.3 Lattice Model （文章所提出的模型）

模型整體如下：
字LSTM部分（整體圖中c加藍色圈的部分）結構如下圖及式(11)：

$\begin{bmatrix} \bold{i}_j^c\\\bold{o}_j^c\\\bold{f}_j^c\\\bold{\widetilde{c}}_j^c \end{bmatrix} =\begin{bmatrix} \sigma\\\sigma\\\sigma\\tanh \end{bmatrix} (\bold{W}^{c^T} \begin{bmatrix} \bold{x}_j^c\\\bold{h}_{j-1}^c \end{bmatrix}+\bold{b}^c)\\ \tag{11}$
$\bold{c}_j^c=\bold{f}_j^c\odot\bold{c}_{j-1}^c+\bold{i}_j^c\odot\widetilde{c}_j^c\\ \bold{h}_j^c=\bold{o}_j^c\odot tanh(\bold{c}_j^c)$
其中：
$\bold{x}_j^c=\bold{e}^c(c_j)$ 表示詞所對應的向量，即LSTM的輸入向量( $input \ vector$ )；
$\bold{h}_{j-1}^c$ 表示前一個字的LSTM cell的輸出；
$\bold{c}_{j-1}^c$ 表示從前一個字和該字相關的詞傳過來的細胞狀態；
$\bold{i}_j^c, \bold{o}_j^c,\bold{f}_j^c$ 分別表示輸入門( $input\ gate$ )、輸出門( $output\ gate$ )和遺忘門( $forget\ gate$ )；
$\sigma, tanh$ 分別表示激活函數sigmod和tanh；
$\odot$ 表示矩陣點積。
詞LSTM部分（整體圖中紅色陰影部分）結構如下圖及式(12)(13)：

$\bold{x}_{b,e}^w=\bold{e}^w(w_{b,e}^d) \tag{12}$
$\begin{bmatrix} \bold{i}_{b,e}^w \\ \bold{f}_{b,e}^w \\ \bold{\widetilde{c}}_{b,e}^w \end{bmatrix}= \begin{bmatrix} \sigma\\ \sigma \\ tanh \end{bmatrix} (\bold{W}^{w^T} \begin{bmatrix} \bold{x}_{b,e}^w \\ \bold{h}_b^c \end{bmatrix}+\bold{b}^w ) \tag{13}\\ \bold{c}_{b,e}^w=\bold{f}_{b,e}^w\odot\bold{c}_b^c+\bold{i}_{b,e}^w\odot\bold{\widetilde{c}}_{b,e}^w$
其中：
$w_{b,e}^d$ 表示從b開始到e結束的詞的子序列，如 $w_{1,2}^d$ =南京、 $w_{6,7}^d$ =大橋；
$\bold{h}_b^c$ 表示第 $b$ 個字的LSTM cell的輸出；
其他變量解釋同上。
可以發現詞LSTM細胞中沒有 $\bold{o}(output\ gate)$ ，這是因爲詞LSTM之間沒有聯繫，每個詞LSTM的細胞狀態都傳給該詞最後一個字的字LSTM細胞。
詞與字的關聯
整體圖中每個字細胞都有兩種類型的輸入，黑色線表示從前一個字傳過來的細胞狀態，綠色線表示從以該字結尾的所有詞傳過來的細胞狀態，不同的輸入採用加權平均的方法傳入，所以 $\bold{c}_j^c$ 不僅包含與第 $j$ 個字符有關的信息，還包含以第 $j$ 個字符結尾的詞的信息，具體如式(15)(16):
$\bold{c}_j^c= \mathop{\sum}\limits_{b\in \{ b'|w_{b',j}^d \in \Bbb{D} \}} \boldsymbol{\alpha}_{b,j}^c\odot\bold{c}_{b,j}^w+ \boldsymbol{\alpha}_j^c\odot\bold{\widetilde{c}}_j^c \tag{15}$
其中：
$\boldsymbol{\alpha}_{b,j}^c= \frac {exp(\bold{i}_{b,j}^c)} {exp(\bold{i}_j^c) + \sum_{b\in \{ b'|w_{b',j}^d \in \Bbb{D} \}}exp(\bold{i}_{b',j}^c)} \tag{16}\\ \boldsymbol{\alpha}_j^c= \frac {exp(\bold{i}_{j}^c)} {exp(\bold{i}_j^c) + \sum_{b\in \{ b'|w_{b',j}^d \in \Bbb{D} \}}exp(\bold{i}_{b',j}^c)}$
舉個例子，對於 $\bold{c}_7^c$ ，包含了 $\bold{x}_7^c$ (橋)、 $\bold{c}_{6,7}^w$ (大橋)、 $\bold{c}_{4,7}^w$ (長江大橋)的信息，所以：
$\bold{c}_7^c=\boldsymbol{\alpha}_{6,7}^c\odot\bold{c}_{6,7}^c+\boldsymbol{\alpha}_{4,7}^c\odot\bold{c}_{4,7}^c+\boldsymbol{\alpha}_7^c\odot\bold{\widetilde{c}}_7^c$
其中：
$\boldsymbol{\alpha}_{6,7}^c= \frac {exp(\bold{i}_{6,7}^c)} {exp(\bold{i}_7^c) + exp(\bold{i}_{6,7}^c) + exp(\bold{i}_{4,7}^c)}\\ \boldsymbol{\alpha}_{4,7}^c= \frac {exp(\bold{i}_{4,7}^c)} {exp(\bold{i}_7^c) + exp(\bold{i}_{6,7}^c) + exp(\bold{i}_{4,7}^c)}\\ \boldsymbol{\alpha}_7^c= \frac {exp(\bold{i}_{7}^c)} {exp(\bold{i}_7^c) + exp(\bold{i}_{6,7}^c) + exp(\bold{i}_{4,7}^c)}$

注：雖然模型看懂了，但對於怎麼送變量進去思路還是有點混亂，等跟着作者github上的代碼實現以後再來完善筆記。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[論文筆記] [中文NER] Chinese NER Using Lattice LSTM

3. 模型部分

3.1 Character-Based Model（基於字）

3.2 Word-Based Model（基於詞）

3.3 Lattice Model （文章所提出的模型）

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

[python] 多python版本服務器端jupyter-notebook映射到本地

[Python] [Bilibili] B站歷史彈幕爬蟲

[前端] html入門練手——微信對話框

[ELK] Elasticsearch的數據查詢、創建、刪除與更新 by curl

B站歷史彈幕爬蟲

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結