目前互聯網上公佈出來的正文提取算法，大家可以綜合比較下

原創

2018-08-24 21:28

　正文一般應該是網頁中最長的部分，如何抽取正文，這部分是最爲核心的。因爲如果不能很好的提取原有文章的內容和樣式，那麼搜索出來的東西就會慘不忍睹．根本就沒有使用價值。

　　在做正文抽取模塊之前曾經參考過很多抽取模式，有配置模版的，有搞視覺匹配的．有搞關鍵字識別的．挨個做了分析首先配置摸版是不太現實的，因爲在搜索技術資訊的時候，根本不知道會搜索到哪個網站，也根本沒精力去配置摸版。所以這個行不通。基於視覺效果的分析，這個難度比較大，而且只適合於規範的網站，而現在很多網站根本不規範，廣告鏈接漫天飛．人家都把最好的位置留給廣告了．而且我一直懷疑這個模式的可行性，它只是一個善意的推測．所以這方面沒做過多嘗試。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

目前互聯網上公佈出來的正文提取算法，大家可以綜合比較下，一起來測試下哪個更好用。

詞網--北京詞網科技有限公司
http://demo.cikuu.com/cgi-bin/cgi-contex

獵兔網頁正文提取
http://www.lietu.com/extract/

PHP版網頁正文提取
http://www.woniu.us/get_content_demo/

網頁正文提取分析(DEMO)
http://61.128.196.27/txt

個人認爲http://61.128.196.27/txt 這個提取最牛，基本上無論什麼頁面都能提取出來，而且能有效的保持原文風格、圖片、鏈接。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

目前互聯網上公佈出來的正文提取算法，大家可以綜合比較下

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

mas2.0 java 短信/彩信開發接口

筆記：如何寫出高效率的正則表達式(轉)

多服務器的日誌合併統計——apache日誌的cronolog輪循

目前互聯網上公佈出來的正文提取算法，大家可以綜合比較下

https 自建證書

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結