在SourceForge.net中,java的網路爬蟲比較多,C++的比較少,下面幾個是與C++的有關的網絡爬蟲(spider,crawler)
Universal Information Crawler
http://sourceforge.net/projects/uicrawler/ (C++)
URL Web Crawler
http://sourceforge.net/projects/ultrafly/ (還沒下載到)
larbin (比較有名)
http://sourceforge.net/projects/larbin/ (C++)
crwlr
http://sourceforge.net/projects/crwlr/ (C++)
C++ web crawler library
http://sourceforge.net/projects/arachne/
應該重點看下larbin,比較有名,網絡上的資料也比較多,與clucene結合,構成整個搜索引擎。其次可以看一下crwlr,個人認爲。這幾天重點分析larbin。