4.1 概述
知識抽取(Information Extraction,IE)旨在從非結構化和半結構化文本中抽取出結構化數據。一般而言,關係抽取產生的結果爲三元組<主體(Subject),謂語(Predicate),客體(Object)>,表示主體和客體之間存在謂詞表達的關係。
除了從文本中或半結構化數據中國抽取關係,還可以有:
- 人工輸入
- 從結構化數據轉換而來
4.1.1 關係抽取的問題和方法分類
關係抽取的問題定義是,給定句子S,從S中抽取其包含的所有三元組<主體,謂詞,客體>。由於可以先行找到或枚舉三元組紅的某些部分,例如。使用命名實體識別(NER)算法找到句子中包含的實體作爲主體或客體,從而只需要使用句子信息填充三元組的其他缺失部分。這引起可關係抽取的多種子問題,基本上可以分爲兩大類:
- 關係實體抽取:給定目標關係,從預料中抽取相應的實例。
- 給定實體對獲取相應關係
- 關係分類:根據實體對的文本描述,將實體對的關係進行分類(通常需要預定義關係類型)。
- 開放關係抽取:有時被稱爲開放信息抽取(Open、 Information Extraction,OpenIE)。
主要方法有:
- 基於模式或規則的抽取方法:將模式或者規則與文本進行匹配,進而識別出文本所提及的三元組的主體、客體和謂詞 。
- 基於序列標註的監督學習方法:其接收一段文本作爲輸入,然後輸出文本中每個詞是否是某個關係對應實體的標註結果。
- 基於文本分類的監督學習方法:這類方法主要針對的是關係分類問題。
4.1.2 關係抽取常用數據集
英文關係抽取最常用的數據集包括:ACE2005數據集、SemEval-2010 Task 8數據集。
爲了克服人工構造評測數據集的規模瓶頸,Mintz等人提出了遠程監督思想,用於自動構造關係抽取的數據集。基於遠程監督思想構造的數據集包括NYT和KBP數據集。
4.1.3 關係抽取評估方法
基於監督學習的關係抽取任務有兩種常用的評估方法:自動評估。人工評估。
關係抽取評估的常見度量指標包括精確度(Precision)、精確度(Accuracy)、召回率(Recall)和F1值等。其公式表示如下: 其中,準確率(Accuracy)定於了模型預測結果與標註集的一致程度;精確率(Precision)度量了模型預測爲正類的樣本中的準確率;召回率(Recall)度量了模型能夠將多少比例的正類樣本準確預測爲正類。
一般而言,精確率和召回率相互衝突(如下圖所示),因此單純考察其中任意指標都是不全面的,必須對不同參下的多組精確率-召回率對進行全面考察,從而綜合評估模型。
4.2 基於模式的抽取
基於模式的關係抽取通過定義關係在文本中表達的字符、語法和語義模式,將模式與文本的匹配作爲主要手段,來實現關係實例的獲取。
4.2.1 基於字符模式的抽取
最直接的方法是將自然語言視爲字符序列,構造字符模式,實現抽取。表達特定關係的字符模式通常被表示爲一組正則表達式,隨後與輸入文本進行匹配,即可完成關係抽取。
關係 | 模式 | 例句 |
---|---|---|
作品-作者 | “《$arg1》,是現代文學家$arg2的散文集。” | “《朝花夕拾》,是現代文學家魯迅的散文集。” |
作頻-原名 | “《$arg1》原名《$arg2》” | “《朝花夕拾》原名《舊事重提》” |
由於該方法對文本和模式的相似性要求較高,故它們往往用於抽取有着固定的描述模式的內容,以及由固定模板生成的網頁。
4.2.2 基於語法模式的抽取
通過引入文本所包含的語法信息(包括詞法和句法等)來描述抽取模式,可以顯著增強模式的表達能力,進而提升模式的準確率和召回率。下表給出了集中常見關係的語法模式。
關係 | 模式 |
---|---|
作品-作者 | NP 著有 (NP、)* |
人物-職業 | NP (是|是一位)ADJP (NP、)*NP |
相比於單存的字符模式,語法模式表達能力更強,同時仍能保證模式匹配的正確性。
4.2.3 基於語義模型的抽取
語法模式通過引入詞性標籤等信息增強了描述能力,但是語法模式是一種相對粗糙的描述,在抽取過程中仍容易引入錯誤。例如,“NP 戰勝 NP”模式,對於句子“小明戰勝自己”,那將抽取出錯誤的關係實例。優化語法模式的一種重要手段就是引入語義元素。下圖列舉了基於概念的語義模式示例。
關係 | 模式 | 例句 |
---|---|---|
國家-總統 | $政治家 當選 $國家 總統 | 奧巴馬當選美國總統 |
作者-作品 | $歌手 發行 $專輯 | 林俊杰發行過於專輯《偉大的渺小》\ |