關係抽取和事件抽取的一些任務特色

關係抽取

1. 評測背景:知識是機器語言理解與交互的重要基礎

  • 機器語言理解與交互是人工智能的基本挑戰,五大任務助力 (機器閱讀理解、面向推薦的對話、語義解析、關係抽取、事件抽取)
  • 知識是機器語言理解與交互的重要基礎
  • 關係抽取是知識獲取的重要方式
    知識圖譜

2. 評測任務:schema約束下的SPO抽取任務

任務描述:

  • 抽取輸入句子中所有符合schema約束的SPO三元組
  • 輸入:預定義schema& 句子
  • 輸出:SPO三元組
    任務特色:挑戰關係抽取模型較難解決的問題
  • 重疊關係抽取問題
  • 複雜關係抽取問題

3. 評測數據集 DuIE2.0 面向真實業務場景的schema

數據生成

  • DuIE1.0 根據query log 統計篩選
  • 知識庫:百度知識圖譜數據
  • 語料:百度百科+百度信息流
    候選生成
  • 基礎候選:SPO粒度遠監督
  • 候選擴召:schema粒度遠監督+並列結構pattern
    衆測標註:
  • 訓練集&開發集 :單副本判斷題標註+單論review
  • 測試集:雙副本填空題標註+兩輪review
  • DuIE2.0,48個關係類型,5個複雜關係類型

4. 2019基線系統:基於BI-LSTM的pipeline模型

模型結構

  • Pipeline結構:先關係分類,在進行s/o 標註
  • Embedding層:詞語,詞性,位置
  • 編碼層:Bi-LSTM
  • 關係分類輸出層:多標籤sigmoid
    存在問題
  • Pipeline沒有利用關係分類,S/O 標註兩個子任務之間的聯繫,且存在錯誤傳遞,效果不易優化
  • 採用Bi-LSTM作爲編碼器,不易並行處理,訓練/預測效率低,且特徵抽取效果不如預訓練模型
  • s/o標註子任務採用簡單的BIO 標註,不易直接處理複雜關係的問題。

5。2020的基線系統:基於ERNIE的E2E標註模型

  • 一步解決關係重疊關係的抽取問題
  • BI-LSTM編碼器->ERNIE預訓練模型
  • 簡單BIO標註策略->新型BIO標註策略

事件抽取

事件:在特定時空下(時間,空間),由一個或多個角色(事件主體)主題開展的一系列活動

事件抽取Event Extraction,EE :

事件要素的結構化抽取,具體的,是從非結構化的自然語言文本中識別事件及其類型,抽取其事件的元素的技術
事件抽取常用Pipeline

  • 1⃣️觸發詞識別
  • 2⃣️事件類型識別
  • 3⃣️論元抽取
    句子:2017年10月31日,宋仲基,宋慧喬在首爾舉行婚禮
    事件類型:結婚 觸發詞:舉行婚禮 時間:地點:男主:女主:
    研究價值:
  • 更具研究價值,更加複雜的應用場景
  • 應用:信息分發,輿情分析,金融事件分析,對話系統

事件抽取的主流方法:

  • Pipeline-based (trigger+arg)
  • Joint-Based (trigger+arg)同時聯合出發詞和論元,相互驗證

事件抽取的評測任務:

任務描述:通過給定目標事件類型和角色類型集合句子,識別句中的目標事件,並根據論元角色集合抽取事件所對應的論元

  • 輸入:包含事件信息的一個或多個連續的句子
  • 輸出: 屬於預先定義的事件類型,類型的論元結果
    數據集特點:
  • 一個句子包括多觸發詞
  • 多值論元角色
  • 面向真實應用場景構建
    事件schema 定義
  • 65個事件類型+121論元角色
    評估方法
  • F1=(2PR)/(P+R)

Baseline 模型

  • 基於序列標註的觸發詞抽取模型
  • 基於序列標註論元抽取模型
    [1]https://mp.weixin.qq.com/s?__biz=MzUxNzk5MTU3OQ==&mid=100002954&idx=1&sn=6ccf514c3649b58d7bd96eb1de29d1e6&scene=19#wechat_redirect
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章