讀《Mining Data Records in Web Pages》

這是一篇關於Data Detection的文章,是由Bing Liu、Robert Crossman、Yanhong Zhai在2003年ACM上發表的。

 

信息提取一般分爲兩步:Data/Object Detection 和 Attributes Labeling。當然也有和在一起的。

 

關於《Mining Data Records in Web Pages》這篇文章

 

  1. 是Data Detection方面的,基於結構的,基於結構意味着 是在對 html的 document 進行操作。當然如果基於視覺的話也需要對dom進行操作;
  2. 可提取的頁面只能是包含多個Object的list page。一般情況下,我們將包含Object的頁面分爲list page 和 detail page(只有一個Object)。list 和 detail也是一般網站的結構。
  3. 核心是string matching。其實就是採用了edit Distance作爲相似度。關於edit Distance,前面轉載的文章已經提過。

 

這篇文章基本上可以放過了。因爲其侷限性。但是瞭解到了edit Distance還是不錯的。

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章