正文一般應該是網頁中最長的部分,如何抽取正文,這部分是最爲核心的。因爲如果不能很好的提取原有文章的內容和樣式,那麼搜索出來的東西就會慘不忍睹.根本就沒有使用價值。
在做正文抽取模塊之前曾經參考過很多抽取模式,有配置模版的,有搞視覺匹配的.有搞關鍵字識別的.挨個做了分析首先配置摸版是不太現實的,因爲在搜索 技術資訊的時候,根本不知道會搜索到哪個網站,也根本沒精力去配置摸版。所以這個行不通。基於視覺效果的分析,這個難度比較大,而且只適合於規範的網站, 而現在很多網站根本不規範,廣告鏈接漫天飛.人家都把最好的位置留給廣告了.而且我一直懷疑這個模式的可行性,它只是一個善意的推測.所以這方面沒做過多 嘗試。
========================================
目前互聯網上公佈出來的正文提取算法,大家可以綜合比較下,一起來測試下哪個更好用。
詞網--北京詞網科技有限公司
http://demo.cikuu.com/cgi-bin/cgi-contex
獵兔網頁正文提取
http://www.lietu.com/extract/
PHP版網頁正文提取
http://www.woniu.us/get_content_demo/
網頁正文提取分析(DEMO)
http://61.128.196.27/txt
個人認爲http://61.128.196.27/txt
這個提取最牛,基本上無論什麼頁面都能提取出來,而且能有效的保持原文風格、圖片、鏈接。