嘗試寫個爬蟲(4)

系統架構

在實際的系統實現時,系統要採用多線程技術,在這裏,用戶可以通過手動的方式,指定採集線程的數目。因此可分爲以下模塊:

1.主控制模塊:

提供命令輸入端口;

2.採集模塊:

採用http下載方式,對用戶指定的網址進行動態下載,採用多線程,用戶在採集前需要配置採集線程數,採集的初始網址信息;

在html腳本中,URL通常表示,注意後面分析


3.網頁分析模塊:

對採集到的網頁進行分析,查找所有符合規則的URL信息,並判斷該URL信息是否已被採集到,若未被採集到,則加入緩存集合,否則丟棄;

用到map的數據結構

4.存儲模塊:

利用MySQL提供的API,將採集到的URL緩存信息寫入數據庫。

基本步驟:

(1)配置連接參數,如用戶名,密碼,數據庫名等;

(2)連接MySQL,連接成功則轉向(3),否則退出;

(3)獲得要存儲的URL信息;

(4)格式化SQL語句,並執行。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章