摘要
融合了字典到深度神經網絡中,解決了一些稀有實體不能被識別的問題。
一、簡介
對每個中文字符,基於字典和上下文設計了5種不同的Schemes來創建特徵向量。
介紹了兩種結構融合特徵向量和字的Embedding向量
二、相關工作
現有工作可分爲四類:(1)基於規則的。(2) 基於字典的。(3) 基於統計機器學習的。(4) 基於深度學習的
三、模型
- Embedding層
- Bi_LSTM層
- CRF層
四、融合詞典信息
N-Gram Feature
前後截取共8個截取段,每一個截取段用0/1標示是哪一類實體,故一個字有8*5=40的向量表示。
PIPE
先根據詞典用BDMM切詞,然後給每一個字一個標籤,表示其屬於哪一類實體。比如一共有5類實體,那麼對每個字,都有一個0/1/2/3/4/5
的特徵。
PDET
在PIPE的基礎上,考慮了字在實體中的位置。
五、融合結構
這裏把提取後的特徵進行embedding較好
- 直接拼接
- 獨立加工
六、實驗結果