原创 基於WebCollector 2.x的增量更新機制,製作新聞採集APP

WebCollector 2.x的增量更新機制,適合採集門戶網站的更新新聞信息。 基於WebCollector 2.x 我們製作了Android APP程序員雜誌。應用採用HTML5構建,應用只有33k,應用使用了webkit的緩存機制,

原创 WebCollector 2.09 發佈

WebCollector 2.09 發佈,更新詳情:http://nutcher.org/topics/63 點贊 收藏 分

原创 WebCollector多代理切換機制

使用同一IP長期爬取網站容易被網站的反爬蟲機制封殺IP。爬蟲往往使用多代理的方法來應對反爬蟲機制。 本教程利用WebCollector爬取大衆點評,展示WebCollector的多代理切換機制,相關內容都在代碼註釋中。 教程中僅僅將網頁保

原创 我和權威的故事——王垠

我和權威的故事 (王垠 yinwang.org 版權所有,未經許可,請勿轉載) 每個人小時候心裏都是沒有權威的,就像每個人小時候也都不相信廣告一樣。可是權威就像廣告,它埋伏在你的潛意識裏。聽一遍不信,聽兩遍不信,……,直到一千遍的時候,它

原创 Nutch教程中文翻譯1(官方教程,中英對照)——Nutch的編譯、安裝和簡單運行

本教程是Nutch官方教程的翻譯,採用逐段翻譯的方法,並加上自己的解釋。 本文由精簡導航提供。 本文原版發佈在CSDN博客和精簡導航,並且文章在持續修改和更新。其他網站出現皆爲轉載,轉載的文章不一定完整。請瀏覽原網頁。 本教程雖然是Nut

原创 How does the compilation/linking process work?

The compilation of a C++ program involves three steps: Preprocessing: the preprocessor takes a C++ source code file

原创 開發網絡爬蟲應該怎樣選擇爬蟲框架?

有些人問,開發網絡爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的?這裏按照我的經驗隨便扯淡一下: 上面說的爬蟲,基本可以分3類:       1.分佈式爬蟲:Nutch   

原创 WebCollector 網頁正文提取算法(ContentExtractor)

WebCollector自2.10版起加入新聞網頁正文自動提取功能(與hfut-dmic的ContentExtractor項目合併)。 WebCollector的正文抽取API都被封裝爲ContentExtractor類的靜態方法

原创 Nutch2.3系列教程——Nutch2.3編譯

Nutch2的穩定版,Nutch2.3終於在2015年1月22日發佈,官方所謂的Nutch2.x終於可以編譯成功了。 下載地址:http://nutch.apache.org/downloads.html 編譯過程: 1.找一臺Linux

原创 WebCollector分佈式爬取

WebCollector-Hadoop是WebCollector的分佈式版本,目前爲beta版本 項目地址:WebCollector-Hadoop WebCollector-Hadoop需要運行在Hadoop上,因此最好在Linu

原创 網頁抽取技術和算法

網頁抽取技術和算法,持續更新。本文由WebCollector提供,轉載請標明出處。 目錄: 網頁抽取簡介 基於正則表達式的網頁抽取 基於CSS選擇器的網頁抽取 基於機器學習的網頁抽取 一. 網頁抽取簡介 網頁抽取在大多數情況

原创

點贊 收藏 分享 文章舉報 AJAXHu 發佈了90 篇原創文章 · 獲贊 67 · 訪問量 52萬+ 他的留言板 關注

原创 用WebCollector 2.x爬取新浪微博(無需手動獲取cookie)

教程已轉移:http://datahref.com/topics/1608 WebCollector爬蟲官網:https://github.com/CrawlScript/WebCollector 技術討論羣:250108697

原创 WebCollector下載整站頁面(JAVA網絡爬蟲)

    很多業務需要下載整站頁面(有時爲多個站點),將頁面按照網站拓撲結構存放。     下面給出用JAVA爬蟲WebCollector(2.09版本以上)爬取整站網頁並按照網頁拓撲結構存儲到本地的代碼。      代碼中的抽取器可以作爲

原创 怎麼用Nutch保存網頁源碼?

怎麼用Nutch保存網頁源碼? 點贊 收藏 分享 文章舉報 AJAXHu 發佈了90 篇原創文章 · 獲贊 67 · 訪問量 52萬+ 他的留言板