系統架構
在實際的系統實現時,系統要採用多線程技術,在這裏,用戶可以通過手動的方式,指定採集線程的數目。因此可分爲以下模塊:
1.主控制模塊:
提供命令輸入端口;
2.採集模塊:
採用http下載方式,對用戶指定的網址進行動態下載,採用多線程,用戶在採集前需要配置採集線程數,採集的初始網址信息;
在html腳本中,URL通常表示,注意後面分析。
3.網頁分析模塊:
對採集到的網頁進行分析,查找所有符合規則的URL信息,並判斷該URL信息是否已被採集到,若未被採集到,則加入緩存集合,否則丟棄;
用到map的數據結構
4.存儲模塊:
利用MySQL提供的API,將採集到的URL緩存信息寫入數據庫。
基本步驟:
(1)配置連接參數,如用戶名,密碼,數據庫名等;
(2)連接MySQL,連接成功則轉向(3),否則退出;
(3)獲得要存儲的URL信息;
(4)格式化SQL語句,並執行。