原创 基於WebCollector 2.x的增量更新機制,製作新聞採集APP
WebCollector 2.x的增量更新機制,適合採集門戶網站的更新新聞信息。 基於WebCollector 2.x 我們製作了Android APP程序員雜誌。應用採用HTML5構建,應用只有33k,應用使用了webkit的緩存機制,
原创 WebCollector 2.09 發佈
WebCollector 2.09 發佈,更新詳情:http://nutcher.org/topics/63 點贊 收藏 分
原创 WebCollector多代理切換機制
使用同一IP長期爬取網站容易被網站的反爬蟲機制封殺IP。爬蟲往往使用多代理的方法來應對反爬蟲機制。 本教程利用WebCollector爬取大衆點評,展示WebCollector的多代理切換機制,相關內容都在代碼註釋中。 教程中僅僅將網頁保
原创 我和權威的故事——王垠
我和權威的故事 (王垠 yinwang.org 版權所有,未經許可,請勿轉載) 每個人小時候心裏都是沒有權威的,就像每個人小時候也都不相信廣告一樣。可是權威就像廣告,它埋伏在你的潛意識裏。聽一遍不信,聽兩遍不信,……,直到一千遍的時候,它
原创 Nutch教程中文翻譯1(官方教程,中英對照)——Nutch的編譯、安裝和簡單運行
本教程是Nutch官方教程的翻譯,採用逐段翻譯的方法,並加上自己的解釋。 本文由精簡導航提供。 本文原版發佈在CSDN博客和精簡導航,並且文章在持續修改和更新。其他網站出現皆爲轉載,轉載的文章不一定完整。請瀏覽原網頁。 本教程雖然是Nut
原创 How does the compilation/linking process work?
The compilation of a C++ program involves three steps: Preprocessing: the preprocessor takes a C++ source code file
原创 開發網絡爬蟲應該怎樣選擇爬蟲框架?
有些人問,開發網絡爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的?這裏按照我的經驗隨便扯淡一下: 上面說的爬蟲,基本可以分3類: 1.分佈式爬蟲:Nutch
原创 WebCollector 網頁正文提取算法(ContentExtractor)
WebCollector自2.10版起加入新聞網頁正文自動提取功能(與hfut-dmic的ContentExtractor項目合併)。 WebCollector的正文抽取API都被封裝爲ContentExtractor類的靜態方法
原创 Nutch2.3系列教程——Nutch2.3編譯
Nutch2的穩定版,Nutch2.3終於在2015年1月22日發佈,官方所謂的Nutch2.x終於可以編譯成功了。 下載地址:http://nutch.apache.org/downloads.html 編譯過程: 1.找一臺Linux
原创 WebCollector分佈式爬取
WebCollector-Hadoop是WebCollector的分佈式版本,目前爲beta版本 項目地址:WebCollector-Hadoop WebCollector-Hadoop需要運行在Hadoop上,因此最好在Linu
原创 網頁抽取技術和算法
網頁抽取技術和算法,持續更新。本文由WebCollector提供,轉載請標明出處。 目錄: 網頁抽取簡介 基於正則表達式的網頁抽取 基於CSS選擇器的網頁抽取 基於機器學習的網頁抽取 一. 網頁抽取簡介 網頁抽取在大多數情況
原创 圖
點贊 收藏 分享 文章舉報 AJAXHu 發佈了90 篇原創文章 · 獲贊 67 · 訪問量 52萬+ 他的留言板 關注
原创 用WebCollector 2.x爬取新浪微博(無需手動獲取cookie)
教程已轉移:http://datahref.com/topics/1608 WebCollector爬蟲官網:https://github.com/CrawlScript/WebCollector 技術討論羣:250108697
原创 WebCollector下載整站頁面(JAVA網絡爬蟲)
很多業務需要下載整站頁面(有時爲多個站點),將頁面按照網站拓撲結構存放。 下面給出用JAVA爬蟲WebCollector(2.09版本以上)爬取整站網頁並按照網頁拓撲結構存儲到本地的代碼。 代碼中的抽取器可以作爲
原创 怎麼用Nutch保存網頁源碼?
怎麼用Nutch保存網頁源碼? 點贊 收藏 分享 文章舉報 AJAXHu 發佈了90 篇原創文章 · 獲贊 67 · 訪問量 52萬+ 他的留言板