第4章關係抽取——《知識圖譜概念與技術》肖仰華

原創

2020-04-24 07:52

4.1 概述

知識抽取（Information Extraction，IE）旨在從非結構化和半結構化文本中抽取出結構化數據。一般而言，關係抽取產生的結果爲三元組<主體（Subject），謂語（Predicate），客體（Object）>，表示主體和客體之間存在謂詞表達的關係。

除了從文本中或半結構化數據中國抽取關係，還可以有：

人工輸入
從結構化數據轉換而來

4.1.1 關係抽取的問題和方法分類

關係抽取的問題定義是，給定句子S，從S中抽取其包含的所有三元組<主體，謂詞，客體>。由於可以先行找到或枚舉三元組紅的某些部分，例如。使用命名實體識別（NER）算法找到句子中包含的實體作爲主體或客體，從而只需要使用句子信息填充三元組的其他缺失部分。這引起可關係抽取的多種子問題，基本上可以分爲兩大類：

關係實體抽取：給定目標關係，從預料中抽取相應的實例。
給定實體對獲取相應關係
- 關係分類：根據實體對的文本描述，將實體對的關係進行分類（通常需要預定義關係類型）。
- 開放關係抽取：有時被稱爲開放信息抽取（Open、 Information Extraction，OpenIE）。

主要方法有：

基於模式或規則的抽取方法：將模式或者規則與文本進行匹配，進而識別出文本所提及的三元組的主體、客體和謂詞。
基於序列標註的監督學習方法：其接收一段文本作爲輸入，然後輸出文本中每個詞是否是某個關係對應實體的標註結果。
基於文本分類的監督學習方法：這類方法主要針對的是關係分類問題。

4.1.2 關係抽取常用數據集

英文關係抽取最常用的數據集包括：ACE2005數據集、SemEval-2010 Task 8數據集。

爲了克服人工構造評測數據集的規模瓶頸，Mintz等人提出了遠程監督思想，用於自動構造關係抽取的數據集。基於遠程監督思想構造的數據集包括NYT和KBP數據集。

4.1.3 關係抽取評估方法

基於監督學習的關係抽取任務有兩種常用的評估方法：自動評估。人工評估。

關係抽取評估的常見度量指標包括精確度（Precision）、精確度（Accuracy）、召回率（Recall）和F1值等。其公式表示如下： $準確率=\frac{TP+TN}{TP+FP+FN+TN}$ $精確率（P）=\frac{TP}{TP+FP}$ $召回率（R）=\frac{TP}{TP+FN}$ $F1值=\frac{2PR}{P+R}$ 其中，準確率（Accuracy）定於了模型預測結果與標註集的一致程度；精確率（Precision）度量了模型預測爲正類的樣本中的準確率；召回率（Recall）度量了模型能夠將多少比例的正類樣本準確預測爲正類。

一般而言，精確率和召回率相互衝突（如下圖所示），因此單純考察其中任意指標都是不全面的，必須對不同參下的多組精確率-召回率對進行全面考察，從而綜合評估模型。

4.2 基於模式的抽取

基於模式的關係抽取通過定義關係在文本中表達的字符、語法和語義模式，將模式與文本的匹配作爲主要手段，來實現關係實例的獲取。

4.2.1 基於字符模式的抽取

最直接的方法是將自然語言視爲字符序列，構造字符模式，實現抽取。表達特定關係的字符模式通常被表示爲一組正則表達式，隨後與輸入文本進行匹配，即可完成關係抽取。

關係	模式	例句
作品-作者	“《$arg1》,是現代文學家$arg2的散文集。”	“《朝花夕拾》,是現代文學家魯迅的散文集。”
作頻-原名	“《$arg1》原名《$arg2》”	“《朝花夕拾》原名《舊事重提》”

由於該方法對文本和模式的相似性要求較高，故它們往往用於抽取有着固定的描述模式的內容，以及由固定模板生成的網頁。

4.2.2 基於語法模式的抽取

通過引入文本所包含的語法信息（包括詞法和句法等）來描述抽取模式，可以顯著增強模式的表達能力，進而提升模式的準確率和召回率。下表給出了集中常見關係的語法模式。

關係	模式
作品-作者	NP 著有（NP、）*
人物-職業	NP （是\|是一位）ADJP （NP、）*NP

相比於單存的字符模式，語法模式表達能力更強，同時仍能保證模式匹配的正確性。

4.2.3 基於語義模型的抽取

語法模式通過引入詞性標籤等信息增強了描述能力，但是語法模式是一種相對粗糙的描述，在抽取過程中仍容易引入錯誤。例如，“NP 戰勝 NP”模式，對於句子“小明戰勝自己”，那將抽取出錯誤的關係實例。優化語法模式的一種重要手段就是引入語義元素。下圖列舉了基於概念的語義模式示例。

關係	模式	例句
國家-總統	$政治家當選 $國家總統	奧巴馬當選美國總統
作者-作品	$歌手發行 $專輯	林俊杰發行過於專輯《偉大的渺小》\

未完待續…

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

第4章關係抽取——《知識圖譜概念與技術》肖仰華

4.1 概述

4.1.1 關係抽取的問題和方法分類

4.1.2 關係抽取常用數據集

4.1.3 關係抽取評估方法

4.2 基於模式的抽取

4.2.1 基於字符模式的抽取

4.2.2 基於語法模式的抽取

4.2.3 基於語義模型的抽取

未完待續…

解決Echarts柱狀圖X軸數據隔一個顯示

獲取每個標籤/類型的計數（Neo4j圖數據庫）

SSH遠程連接斷開後讓程序繼續運行解決辦法（Linux）

使用arpspoof進行ARP欺騙

第1章：知識圖譜概述——《知識圖譜概念與技術》肖仰華

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

第4章 關係抽取——《知識圖譜概念與技術》肖仰華

4.1 概述

4.1.1 關係抽取的問題和方法分類

4.1.2 關係抽取常用數據集

4.1.3 關係抽取評估方法

4.2 基於模式的抽取

4.2.1 基於字符模式的抽取

4.2.2 基於語法模式的抽取

4.2.3 基於語義模型的抽取

未完待續…

第4章關係抽取——《知識圖譜概念與技術》肖仰華