這是一篇關於Data Detection的文章,是由Bing Liu、Robert Crossman、Yanhong Zhai在2003年ACM上發表的。
信息提取一般分爲兩步:Data/Object Detection 和 Attributes Labeling。當然也有和在一起的。
關於《Mining Data Records in Web Pages》這篇文章
- 是Data Detection方面的,基於結構的,基於結構意味着 是在對 html的 document 進行操作。當然如果基於視覺的話也需要對dom進行操作;
- 可提取的頁面只能是包含多個Object的list page。一般情況下,我們將包含Object的頁面分爲list page 和 detail page(只有一個Object)。list 和 detail也是一般網站的結構。
- 核心是string matching。其實就是採用了edit Distance作爲相似度。關於edit Distance,前面轉載的文章已經提過。
這篇文章基本上可以放過了。因爲其侷限性。但是瞭解到了edit Distance還是不錯的。