實體消岐

NER:Named Entity Recognition
NED:Named Entity Disambiguation
wikipedia詞條“Entity Linking”指出“NED is different from NER in that NER identifies the occurrence or mention of a named entity in text but it does not identify which specific entity it is.”。

在非結構化文檔中,由於書寫風格和上下文的需要,同一個命名實體實體可能包含多種形式的表達,同時文檔中的一個名詞可能從字面意思上對應多種命名實體。考慮實際案例:論文中作者的名稱變體(Zhang San, S. Zhang, San Zhang),不同人物的相同名稱(Li Wei是多個人的名字)和名字拼寫(Zhang Sen)錯誤。 由於不可能爲每個名稱分配唯一的標識符,所以在許多情況下,如果人們使用名稱來識別指定的命名實體,則可能會導致混淆(也稱爲名稱模糊, Name Ambiguity)。 具體來說,該問題通常被劃分爲兩個角度來研究。

  1. Reference Disambiguation
    主要解決一個命名實體有多種形式表達的問題,如在多篇文檔中包含”Zhang San”, “S. Zhang”, “San Zhang” (這裏認爲它們指代同一個實體),將包含這些名稱變形的劃分爲同一個簇,我們可以獲得該命名實體更爲詳細的知識。
    無監督:爲了實現這個目的,傳統的方法往往利用文檔的多種信息作爲特徵輸入,包括:文檔標題,摘要,共同作者,兩個不完全相同名詞之間的相似度(S. Zhang與San Zhang的編輯距離很短,較爲相似)。隨後,基於這些特徵,任意兩個名稱之間的相似度可以根據人爲設計的相似度函數給出,多種聚類方法均可以被用來獲取真實的命名實體變形集合。此外,這些聚類方法往往與基於相關關係的圖模型方法結合使用,以實現名稱變形體的聚類。
    有監督:考慮簡單的分類問題,對於100個命名實體,我們可以根據訓練數據(文檔中包含名稱變形,標題,摘要,文章類別或說topic) 構建Naive Bayes和SVM分類器。對於一個新樣本(名稱變形),我們可以根據基於分類器實現劃分。

  2. Name Disambiguation
    主要解決同一個名稱對應與多個命名實體的問題,如“Wei Wang”可能是多個人的名字。Name disambiguation 的目的就是要根據文檔的上下文信息(或者說名稱在文檔中的特徵)將包含“Li Wei”的文檔集合進一步劃分,以找到我們真正想要的檢索文檔。其實,Reference Disambiguation中很多思想都可以被用來實現Name Disambiguation.
    下面我們考慮一個如何計算不同論文中“Wei Wang”相似度的案例:(這裏考慮6篇文獻)
    這裏寫圖片描述
    基於圖的消歧算法, 其算法流程:首先構建關於作者名 A 的合作者關係圖, 其中節點表示作者的名字, 不同的 A 節點表示在不同文獻中出現的作者 A,而其他合作者名字則用一個節點來表示,邊表示合著關係, 之後選擇圖的有效路徑, 計算不同的 A 節點之間的相似度,最後採用 聚類法對不同的 A 節點聚類

References:

  • Fan X, Wang J, Pu X, et al. On Graph-Based Name Disambiguation[J]. Journal of Data & Information Quality, 2011, 2(2):1-23.
  • On B W, Lee D. Scalable Name Disambiguation using Multi-level Graph Partition[C]// Siam International Conference on Data Mining, April 26-28, 2007, Minneapolis, Minnesota, Usa. DBLP, 2007.
  • 宋文強. 科技文獻作者重名消歧與實體鏈接[D]. 哈爾濱工業大學, 2012.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章