實體消歧

1. 實體消歧概述

1.1 實體消歧定義

命名實體的歧義指的是一個實體指稱項可對應到多個真實世界實體。例如Michael Jordan可以表示籃球運動員，也可以表示計算機科學家，或者其他實體。
確定一個實體指稱項所指向的真實世界實體，這就是命名實體消歧。

1.2 實體消歧分類

基於聚類的實體消歧
- 把所有實體指稱項按其指向的目標實體進行聚類
- 每一個實體指稱項對應到一個單獨的類別
基於實體鏈接的實體消歧
- 將實體指稱項與目標實體列表中的對應實體進行鏈接實現消歧

2. 基於無監督的實體消歧

2.1 基於聚類的實體消歧

基本思路
- 同一指稱項具有近似的上下文
- 利用聚類算法進行消歧
- 核心問題：選取何種特徵對於指稱項進行表示
  1. 詞袋模型（Bagga 等人，COLING，1998）
  2. 語義特徵（Pederson等人，CLIP，2005）
  3. 社會化網絡（Bekkerman等人，WWW，2005）
  4. 維基百科的知識（Han 和 Zhao，CIKM，2009）
  5. 多元易購語義知識融合（Han 和 Zhao，ACL，2010）
詞袋模型
- 利用待消歧實體周邊的詞來構造向量
- 利用向量空間模型來計算兩個實體指稱項的相似度，進行聚類
語義特徵
- 利用SVD分解挖掘詞的語義信息
- 利用詞袋和淺層語義特徵，共同表示指稱項，利用餘弦相似度來計算兩個指稱項的相似度
社會化網絡
- 不同的人具有不同的社會關係
- MJ, Peppen, Buckley, Ewing, Kobe等的社會化關聯信息所表現出來的網頁鏈接特徵，對網頁進行聚類，從而實現網頁內的人名聚類消歧。
Wikipedia方法
- Wikipedia中相關試題具有鏈接關係。
- 這種鏈接關係反映條目之間的語義相關度
- 用實體上下文的維基條目對於實體進行向量表示
- 利用維基條目之間的相關度計算指稱項之間的相似度（解決數據稀疏問題）
多源異構知識方法
- 僅僅考慮Wikipedia一種知識源，覆蓋度有限
- 多源異構知識的挖掘與集成
  - 知識源中存在大量的多源異構知識
  - 挖掘和集成多源異構知識可以提高實體消歧的性能
  - Wikipedia：用於捕捉概念之間的語義關聯
  - WordNet：用於捕捉詞語之間的語言學關聯
  - Web網頁庫：用於捕捉命名實體之間的社會化關聯
- 多源異構知識的表示框架：語義圖
  - 等同概念識別
  - 概念連接：同時捕捉顯式語義知識和結構化語義知識
    - 語義圖的邊（顯式語義知識）：建模了所有從知識源中直接抽取出的概念之間的顯式語義關聯
    - 語義圖的結構（結構化語義知識）：建模了概念之間的隱藏語義關聯
- 語義圖中語義知識的挖掘和融合算法
  - 計算原則：如果一個概念的鄰居概念與另一個概念存在語義關聯，則這個概念也與另一個概念存在語義關聯
  - 語義關聯在圖中的傳遞性
小結
- 主要研究集中在實體指稱項的語義表示
- 已有工作大多是通過擴展特徵，增加更多的知識來提高消歧精度
- 挑戰：消歧目標難以確定；缺乏實體的顯式表示。

3. 基於知識庫鏈接的實體消歧

實體鏈接的任務：給定實體指稱項和它所在的文本，將其鏈接到給定知識庫中的相應實體上。
主要步驟
- 候選實體的發現：給定實體指稱項，鏈接系統根據知識、規則等信息找到實體指稱項的候選實體
- 候選實體的鏈接：系統根據指稱項和候選實體之間的相似度等特徵，選擇實體指稱項的目標實體
候選實體發現
1. 利用Wikipedia信息獲取候選實體
  - 利用Wikipedia中錨文本的超鏈接關係
  - 利用Wikipedia中的消歧頁面
  - 利用Wikipedia中的重定向頁面
2. 利用上下文獲取縮略語候選實體
  - 縮略語指稱項具有很強的歧義性，但它的全稱往往是沒有歧義的
  - 解決方法：利用人工規則抽取實體候選
候選實體鏈接
- 基本方法：計算實體指稱項和候選實體的相似度，選擇相似度最大的候選實體
- 單一實體鏈接
- 協同實體鏈接
基於詞袋子模型計算相似度
- 將實體指稱項上下文文本與候選實體上下文文本表示成詞袋子向量形式，通過計算向量間的夾角確定指稱項與候選實體相似度，系統選擇相似度最大的候選實體進行鏈接。
類別特徵（Bunescu EACL 2006）
- 動機：候選實體的文本內容可能太短，會導致相似度計算的不準確；加入指稱項文本中的詞與候選實體類別的共現特徵
- 方法：訓練SVM分類器對候選實體進行選擇；訓練數據由Wikipedia中的超級鏈接獲得；所採用的的特徵（文本相似度；指稱項文本中詞與候選實體類別的共現信息）
實體流行度等特徵（Han ACL 2011）
- 動機：傳統的方法僅僅是計算實體指稱項與候選實體的相似度，忽略了候選實體的背景知識與先驗信息，如實體本身的流行度、實體與指稱項的關係等
- 方法：考慮實體的背景知識，將實體的背景知識融入到實體鏈接的過程，實體的背景知識和先驗信息主要有：
  - 實體流行度：實體e在知識庫中的概率P(e)
  - 名稱的知識：指稱項s指向實體e的概率P(s|e)
  - 上下文知識：實體e出現在特定上下文環境e的概率P(c|e)
協同實體鏈接
- 實體指稱項與目標實體的語義相似度
- 目標實體之間的語義相似度
協同學習策略
- 同一片文檔行中實體之間具有語義相似性
- 利用Pairwise優化策略
- 目標實體的語義相關度計算方法：
  - 利用實體類別重合度計算目標實體語義相似度（cucerzan, EMNLP 2007）
  - 利用實體之間鏈接關係計算目標實體語義相似度(Kulkarni, KDD 2009)
基於圖的協同鏈接（Han SIGIR 2011）
- 動機：Pairwise策略只考慮兩兩實體關係，結局不是全局最優的；採用圖方法，全局考慮目標實體之間的語義關聯
- 方法：Referent Graph，兩種關係構成
  1. 指稱項與實體之間的關係：該指稱項文本與實體文本的相似度，由傳統的VSM模型得到
  2. 實體之間的語義關係：利用目標實體之間的鏈接關係計算實體之間的語義相關度
基於深度學習的方法（He ACL 2013）
- 動機：傳統的方法中，計算待消歧實體上下文和目標實體語義相似度的方法（點乘，餘弦相似度，KL距離等）可擴展性差，沒有考慮各個概念間的內在聯繫；在協同過濾的方法中，計算待消歧實體上下文和目標實體語義相似度也是基礎工作。
- 方法：提出利用深度學習的方法自動聯合學習實體和文檔的表示，進而完成實體鏈接任務。
跨語言實體鏈接（Zhang IJCAI 2013）
- 動機：給定一種語言的實體指稱項和其所在的上下文，將其鏈接到另外一種語言的知識庫中；傳統方法要先翻譯成目標語言，可能產生錯誤傳遞，需要大量的句子級平行的雙語訓練語料。
- 方法：利用雙語隱含主題模型將實體指稱項與候選實體映射到同一個主題空間中
  - 每一個隱含主題有兩種不同的分佈，分別對應兩種不同語言
  - 處於同一個主題分佈下的兩種不同語言的詞的分佈具有一些共性。
結構化數據中的實體鏈接（Shen SIGKDD 2012）
- 動機：沒有上下文；任務與傳統的實體鏈接不同
- 方法：主要利用實體的流行度和實體共現類型去消歧
社交數據中的實體鏈接（Shen SIGKDD 2013）
- 動機：社交媒體是一種重要的信息來源；社交媒體的上下文較短，語言表述不規範
- 方法：利用tweet的用戶信息和tweet的交互信息
小結
- 目前實體鏈接方法主要是如何更有效挖掘實體指稱項信息，如何更準確地計算實體指稱項和實體概念之間的相似度
- 由單一實體鏈接向協同實體鏈接發展
- 難點：未登錄實體的處理。