論文筆記:Incorporating dictionaries into deep neural networks for the Chinese clinical NER

摘要

融合了字典到深度神經網絡中,解決了一些稀有實體不能被識別的問題。

一、簡介

對每個中文字符,基於字典和上下文設計了5種不同的Schemes來創建特徵向量。
介紹了兩種結構融合特徵向量和字的Embedding向量

二、相關工作

現有工作可分爲四類:(1)基於規則的。(2) 基於字典的。(3) 基於統計機器學習的。(4) 基於深度學習的

三、模型

  • Embedding層
  • Bi_LSTM層
  • CRF層

四、融合詞典信息

N-Gram Feature

前後截取共8個截取段,每一個截取段用0/1標示是哪一類實體,故一個字有8*5=40的向量表示。
在這裏插入圖片描述
在這裏插入圖片描述

PIPE

先根據詞典用BDMM切詞,然後給每一個字一個標籤,表示其屬於哪一類實體。比如一共有5類實體,那麼對每個字,都有一個0/1/2/3/4/5的特徵。

PDET

在PIPE的基礎上,考慮了字在實體中的位置。

五、融合結構

這裏把提取後的特徵進行embedding較好

  • 直接拼接
    在這裏插入圖片描述
  • 獨立加工
    在這裏插入圖片描述

六、實驗結果

在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章