《Using OpenRefine》翻譯~16

上一篇:《Using OpenRefine》翻譯~15

•點5-抽取單名稱項

解析服務在你的數據集中只包含單個條目時工作良好,比如人名、國家或者工種。但是,如果你的列內容包含的是一小段文字時解析往往不奏效,因爲其只能在數據庫中搜索單個條目。幸運的是,另一種技術named-entity extraction(抽取單名稱項)可以用的上。抽取算法會對包含多個單元素(比如人名,地址,值,組織或其他一般的東西)的文本進行搜索,其不光能夠抽取單項,很多算法還能夠進行歧義甄別。舉個例子,如果算法在文本中發現了Washington,其會嘗試識別這個究竟是城市還是人名,這樣就避免了必須對每個單獨抽出項才能進行解析的情況發生。

OpenRefine本身並不支持抽取單名稱項,但是我們可以增加抽取單名稱項擴展包。在繼續學習前,請先到 http://software.freeyourmetadata.org/ner-extension/下載安裝,如果安裝成功,那麼我們將在屏幕右側頂部看到Named-entity recognition按鈕。


本小點學習中,你需要保證數據集中categories列未被分割,因爲抽取單名稱項會在發現記錄爲多內容時創建多行。如果你已經分割成多行的話會導致混亂。

查看Powerhouse Museum數據集,我們發現Descriptions列是進行抽取單名稱項嘗試的很好的樣本,因爲其包含多內容文本。如果我們想把這些內容與數據庫互聯,那麼我們首先需要進行抽取工作。點擊Descriptions列下拉菜單選擇Extract named entities…對話框如下:


擴展包並不包含抽取單名稱項算法,而是使用在線服務代替,就好像解析功能一樣。你可以選擇喜歡的解析服務。但是和解析服務不同的是,解析服務都是開放的,但是某些抽取單名稱項服務卻需要註冊,但還是免費的,某些服務還提供中級賬號,這樣能夠提供更多的好處,比如更快的抽取或者不限抽取數量。

DBpedia Spotlight服務不需要註冊,所以能夠直接使用,勾選此選項然後點擊Start extraction。OpenRefine就會開始抽取進程,這需要一些時間。因此,就像我們以前介紹的一樣,先對一個子集進行抽取實驗會比較明智。如果你同時勾選了多個抽取服務,那麼抽取速度也就和其中最慢的服務速度一樣。

當抽取單名稱項進程結束後,你可以看到OpenRefine 在Description列旁邊創建了一個新列:DBpedia Spotlight.


在新列中,我們看到了已抽取出的項,如果是多內容單元格,則會分割成多行,你可以在行模式和記錄模型之間切換。上圖顯示DBpedia Spotlight列中,記錄162中發現了2條,記錄173沒有項被發現,記錄184發現1項.你可以看到這些項顯示爲藍色,這表明這些是鏈接。舉個例子,如果你點擊Leeds Town Hall,你就會打開相關資源的鏈接,這就是數據相互鏈接起來了,原來人類才能理解的內容現在可以被機器所理解了。

但是,你會發現有些單元格沒有相關鏈接內容。讓我們看看其他抽取服務是不是有效。這裏,我們需要爲這個服務添加賬號。點擊屏幕頂部右側按鈕Named-entityrecognition ,選擇Configure API keys…. 會打開如下服務配置對話框:


舉個例子,如果你想使用Zemanta來進行抽取單名稱項,在對應字段中增加Application programming interface (API) ,如果你沒有API,則點擊configuration instructions,這會打開ZemantaAPI註冊頁面。所有的服務都有一個免費選項,所以你可以註冊然後對數據進行嘗試,而不需要付費。某些服務還有額外的配置選項,可以按照配置指導進行配置。

當你完成配置,對Description列再次嘗試抽取單名稱項後,你可以同時選擇多個服務項了。每個服務會創建一個獨立的列,所以你會得到兩列:Zemanta AlchemyAPI,每一列都會有抽取項。所以多嘗試下吧。

 

 

小結

本章中,我們學習瞭如何使互相孤立的數據集建立聯繫。一方面,你可以對單內容字段進行解析,這樣可以使得這些單元格與URL對應,並且能夠在線查詢詳細信息。你也可以使用內置的Freebase解析或者安裝RDF擴展包 來實現對鏈接數據的解析。另一方面,你也可以使用擴展包進行抽取單名稱項,這可以使OpenRefine對單元格內的內容進行查詢,並且找到每個內容小項的URL。最後,你的數據集會與其他數據集建立豐富的聯繫,使之在發佈時變得很有價值。


下一篇:《Using OpenRefine》翻譯~17

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章