目前互聯網上公佈出來的正文提取算法,大家可以綜合比較下

 正文一般應該是網頁中最長的部分,如何抽取正文,這部分是最爲核心的。因爲如果不能很好的提取原有文章的內容和樣式,那麼搜索出來的東西就會慘不忍睹.根本就沒有使用價值。

  在做正文抽取模塊之前曾經參考過很多抽取模式,有配置模版的,有搞視覺匹配的.有搞關鍵字識別的.挨個做了分析首先配置摸版是不太現實的,因爲在搜索 技術資訊的時候,根本不知道會搜索到哪個網站,也根本沒精力去配置摸版。所以這個行不通。基於視覺效果的分析,這個難度比較大,而且只適合於規範的網站, 而現在很多網站根本不規範,廣告鏈接漫天飛.人家都把最好的位置留給廣告了.而且我一直懷疑這個模式的可行性,它只是一個善意的推測.所以這方面沒做過多 嘗試。


========================================

目前互聯網上公佈出來的正文提取算法,大家可以綜合比較下,一起來測試下哪個更好用。


詞網--北京詞網科技有限公司
http://demo.cikuu.com/cgi-bin/cgi-contex


獵兔網頁正文提取
http://www.lietu.com/extract/


PHP版網頁正文提取
http://www.woniu.us/get_content_demo/


網頁正文提取分析(DEMO)
http://61.128.196.27/txt


個人認爲http://61.128.196.27/txt 這個提取最牛,基本上無論什麼頁面都能提取出來,而且能有效的保持原文風格、圖片、鏈接。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章