實體消岐

實體消岐

NER：Named Entity Recognition
NED：Named Entity Disambiguation
wikipedia詞條“Entity Linking”指出“NED is different from NER in that NER identifies the occurrence or mention of a named entity in text but it does not identify which specific entity it is.”。

在非結構化文檔中，由於書寫風格和上下文的需要，同一個命名實體實體可能包含多種形式的表達，同時文檔中的一個名詞可能從字面意思上對應多種命名實體。考慮實際案例：論文中作者的名稱變體（Zhang San, S. Zhang， San Zhang），不同人物的相同名稱（Li Wei是多個人的名字）和名字拼寫（Zhang Sen）錯誤。由於不可能爲每個名稱分配唯一的標識符，所以在許多情況下，如果人們使用名稱來識別指定的命名實體，則可能會導致混淆（也稱爲名稱模糊, Name Ambiguity）。具體來說，該問題通常被劃分爲兩個角度來研究。

Reference Disambiguation
主要解決一個命名實體有多種形式表達的問題，如在多篇文檔中包含”Zhang San”, “S. Zhang”， “San Zhang” （這裏認爲它們指代同一個實體），將包含這些名稱變形的劃分爲同一個簇，我們可以獲得該命名實體更爲詳細的知識。
無監督：爲了實現這個目的，傳統的方法往往利用文檔的多種信息作爲特徵輸入，包括：文檔標題，摘要，共同作者，兩個不完全相同名詞之間的相似度（S. Zhang與San Zhang的編輯距離很短，較爲相似）。隨後，基於這些特徵，任意兩個名稱之間的相似度可以根據人爲設計的相似度函數給出，多種聚類方法均可以被用來獲取真實的命名實體變形集合。此外，這些聚類方法往往與基於相關關係的圖模型方法結合使用，以實現名稱變形體的聚類。
有監督：考慮簡單的分類問題，對於100個命名實體，我們可以根據訓練數據（文檔中包含名稱變形，標題，摘要，文章類別或說topic）構建Naive Bayes和SVM分類器。對於一個新樣本（名稱變形），我們可以根據基於分類器實現劃分。
Name Disambiguation
主要解決同一個名稱對應與多個命名實體的問題，如“Wei Wang”可能是多個人的名字。Name disambiguation 的目的就是要根據文檔的上下文信息（或者說名稱在文檔中的特徵）將包含“Li Wei”的文檔集合進一步劃分，以找到我們真正想要的檢索文檔。其實，Reference Disambiguation中很多思想都可以被用來實現Name Disambiguation.
下面我們考慮一個如何計算不同論文中“Wei Wang”相似度的案例：（這裏考慮6篇文獻）

基於圖的消歧算法，其算法流程：首先構建關於作者名 A 的合作者關係圖，其中節點表示作者的名字，不同的 A 節點表示在不同文獻中出現的作者 A，而其他合作者名字則用一個節點來表示，邊表示合著關係，之後選擇圖的有效路徑，計算不同的 A 節點之間的相似度，最後採用聚類法對不同的 A 節點聚類

References:

Fan X, Wang J, Pu X, et al. On Graph-Based Name Disambiguation[J]. Journal of Data & Information Quality, 2011, 2(2):1-23.
On B W, Lee D. Scalable Name Disambiguation using Multi-level Graph Partition[C]// Siam International Conference on Data Mining, April 26-28, 2007, Minneapolis, Minnesota, Usa. DBLP, 2007.
宋文強. 科技文獻作者重名消歧與實體鏈接[D]. 哈爾濱工業大學, 2012.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

References:

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

Ubuntu 14.04 wubi 硬盤安裝 ~ linux小白

ps格式的論文轉pdf

徑向基函數（RBF）神經網絡

Logistic Regression

個人稀疏編碼筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結