中文信息抽取技術初探索

先推薦一篇博士論文:

【中文事件抽取關鍵技術研究-譚紅葉】

以下大部分內容都是從這篇博士論文中整理出來的。

在MUC評測會議上,信息抽取定義包括:

  • 命名實體的識別(Named entities,NE)
  • 命名實體關係的抽取(Template relation,TR)
  • 指定事件及其主要論元角色的抽取 (Scenario template ,ST)
  • 模板元素的填充(Template element,TE)
  • 共指關係的確定(conference)

在ACE評測會議上,信息抽取定義定義的抽取是在單個文檔內部進行(Document level IE),不受其他文檔的影響,不屬於跨文檔的信息抽取(Across document IE)。包括:

  • 實體的檢測和識別(Entity detection and recognition, EDR)
  • 關係的檢測和識別(Relation detection and recognition, RDR)
  • 事件的檢測與識別(Event detection and recognition, VDR)
  • 值 的 檢 測 和 識 別 (Value detection and Recognition, VAL)
  • 時間的檢測和識別(Time detection and recognition)

由此可見,信息抽取的核心應該是命名實體識別+關係抽取+事件抽取

事件的檢測與識別主要指特定類型事件的檢測和相關信息的識別。相關的信息主要包括:
- 屬性信息
- 論元角色
- 文中描述事件的句子或片段

事件抽取涉及到的核心任務是:事件mention的識別、事件屬性的確定和論元角色的識別。
即主要包括事件的檢測與分類(又稱事件識別)、事件論元角色抽取(又稱事件元素識別)兩個階段。

ACE評測會議將事件分爲8 個大類和 33 個子類,分別爲:
- Justice :Acquit無罪、Appeal呼籲、Arrest-Jail拘捕入獄、Charge-Indict案件起訴、Convict宣判有罪、Execute處死、Extradite引渡、Fine罰款、Pardon赦免、Release-Parole假釋、Sentence宣判、Sue控告、Trial-Hearing審判/聽證。
- Conflict衝突:Attack攻擊、Demonstrate示威
- Contact聯繫:Meet見面、Phone-Write電話寫信
- Life生活:Be-Born出生、Die死亡、Divorce離婚、Injure受傷、Marry結婚。
- Movement:Transport運輸。
- Business:Declare-Bankruptcy宣告破產、End-Org、Merge-Org企業併購、Start-Org創辦企業。
- Personnel人事:Elect選舉、End-Position最終職位、Nominate任命、Start-Position實習職位。
- Transaction交易:Transfer-Money轉賬、Transfer-Ownership過戶。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章