關係抽取
1. 評測背景:知識是機器語言理解與交互的重要基礎
- 機器語言理解與交互是人工智能的基本挑戰,五大任務助力 (機器閱讀理解、面向推薦的對話、語義解析、關係抽取、事件抽取)
- 知識是機器語言理解與交互的重要基礎
- 關係抽取是知識獲取的重要方式
知識圖譜
2. 評測任務:schema約束下的SPO抽取任務
任務描述:
- 抽取輸入句子中所有符合schema約束的SPO三元組
- 輸入:預定義schema& 句子
- 輸出:SPO三元組
任務特色:挑戰關係抽取模型較難解決的問題 - 重疊關係抽取問題
- 複雜關係抽取問題
3. 評測數據集 DuIE2.0 面向真實業務場景的schema
數據生成
- DuIE1.0 根據query log 統計篩選
- 知識庫:百度知識圖譜數據
- 語料:百度百科+百度信息流
候選生成 - 基礎候選:SPO粒度遠監督
- 候選擴召:schema粒度遠監督+並列結構pattern
衆測標註: - 訓練集&開發集 :單副本判斷題標註+單論review
- 測試集:雙副本填空題標註+兩輪review
- DuIE2.0,48個關係類型,5個複雜關係類型
4. 2019基線系統:基於BI-LSTM的pipeline模型
模型結構
- Pipeline結構:先關係分類,在進行s/o 標註
- Embedding層:詞語,詞性,位置
- 編碼層:Bi-LSTM
- 關係分類輸出層:多標籤sigmoid
存在問題 - Pipeline沒有利用關係分類,S/O 標註兩個子任務之間的聯繫,且存在錯誤傳遞,效果不易優化
- 採用Bi-LSTM作爲編碼器,不易並行處理,訓練/預測效率低,且特徵抽取效果不如預訓練模型
- s/o標註子任務採用簡單的BIO 標註,不易直接處理複雜關係的問題。
5。2020的基線系統:基於ERNIE的E2E標註模型
- 一步解決關係重疊關係的抽取問題
- BI-LSTM編碼器->ERNIE預訓練模型
- 簡單BIO標註策略->新型BIO標註策略
事件抽取
事件:在特定時空下(時間,空間),由一個或多個角色(事件主體)主題開展的一系列活動
事件抽取Event Extraction,EE :
事件要素的結構化抽取,具體的,是從非結構化的自然語言文本中識別事件及其類型,抽取其事件的元素的技術
事件抽取常用Pipeline
- 1⃣️觸發詞識別
- 2⃣️事件類型識別
- 3⃣️論元抽取
句子:2017年10月31日,宋仲基,宋慧喬在首爾舉行婚禮
事件類型:結婚 觸發詞:舉行婚禮 時間:地點:男主:女主:
研究價值: - 更具研究價值,更加複雜的應用場景
- 應用:信息分發,輿情分析,金融事件分析,對話系統
事件抽取的主流方法:
- Pipeline-based (trigger+arg)
- Joint-Based (trigger+arg)同時聯合出發詞和論元,相互驗證
事件抽取的評測任務:
任務描述:通過給定目標事件類型和角色類型集合句子,識別句中的目標事件,並根據論元角色集合抽取事件所對應的論元
- 輸入:包含事件信息的一個或多個連續的句子
- 輸出: 屬於預先定義的事件類型,類型的論元結果
數據集特點: - 一個句子包括多觸發詞
- 多值論元角色
- 面向真實應用場景構建
事件schema 定義 - 65個事件類型+121論元角色
評估方法 - F1=(2PR)/(P+R)
Baseline 模型
- 基於序列標註的觸發詞抽取模型
- 基於序列標註論元抽取模型
[1]https://mp.weixin.qq.com/s?__biz=MzUxNzk5MTU3OQ==&mid=100002954&idx=1&sn=6ccf514c3649b58d7bd96eb1de29d1e6&scene=19#wechat_redirect