嘗試寫個爬蟲（4）

原創

2020-02-23 15:27

系統架構

在實際的系統實現時，系統要採用多線程技術，在這裏，用戶可以通過手動的方式，指定採集線程的數目。因此可分爲以下模塊：

1.主控制模塊：

提供命令輸入端口；

2.採集模塊：

採用http下載方式，對用戶指定的網址進行動態下載，採用多線程，用戶在採集前需要配置採集線程數，採集的初始網址信息；

在html腳本中，URL通常表示，注意後面分析。

3.網頁分析模塊：

對採集到的網頁進行分析，查找所有符合規則的URL信息，並判斷該URL信息是否已被採集到，若未被採集到，則加入緩存集合，否則丟棄；

用到map的數據結構

4.存儲模塊：

利用MySQL提供的API，將採集到的URL緩存信息寫入數據庫。

基本步驟：

（1）配置連接參數，如用戶名，密碼，數據庫名等；

（2）連接MySQL，連接成功則轉向（3），否則退出；

（3）獲得要存儲的URL信息；

（4）格式化SQL語句，並執行。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pyppeteer初次運行需要下載Chrome無法下載或者下載慢的解決方案

目前網上最多的其實都是自己手動下載，這裏說一下最簡單的、最方便的解決方案。這裏進行替換就好了，這裏是不需要修改源碼的。只要在我們引用之前設置下環境變量就好了。 import os DEFAULT_DOWNLOAD_HOST

2020-07-08 05:42:09

爬蟲入門--糗百

文章目錄1.爬蟲基本概念2.Requests 庫基本介紹3.Beautiful Soup 庫介紹本文目標：掌握爬蟲的基本概念 Requests 及 Beautiful Soup 兩個 Python 庫的基本使用通過以上知識完

2020-07-08 05:17:04

爬蟲知識梳理

爬蟲知識簡單梳理文章目錄爬蟲知識簡單梳理1.分類2.模擬瀏覽器請求數據（常用）3.數據提取XML和HTML區別a. 正則（re模塊）b. Beautiful Soup4模塊[API鏈接](http://beautifulsoup

AggressionStorm

2020-07-08 04:15:54

java 網絡編程發展過程以及nio的特點

背景: 省分短信發送每天都差不多要1000W條上下,遇到特殊節假日和政府通告時量會更大!boss系統中存放的是短信發送內容,而真正完成發送短信指令動作是的華爲方做的短廳,這麼大的通信量選擇了netty來完成數據傳輸並自定義了一套基於net

2020-07-08 09:25:14

Tomcat，servlet以及netty之間的簡單區別

Tomcat（這裏以tomcat代表web服務器）和Servlet對比： Tomcat可以理解成用於http平臺的服務器，能接受http的請求並分析。 Servlet是java內部的一種規範，準確的說，他可以對參數進行分析，創建對象然後返

2020-07-08 09:25:14

配置Spring+hibernate使用ehcache作爲second-level cache

大量數據流動是web應用性能問題常見的原因，而緩存被廣泛的用於優化數據庫應用。cache 被設計爲通過保存從數據庫裏load的數據來減少應用和數據庫之間的數據流動。數據庫訪問只有當檢索的數據不在cache 裏可用時才必要。hiberna

2020-07-08 09:06:09

Struts ActionServlet 工作流程圖

一.Struts實現的MVC框架二.Struts的工作流程對於採用Struts框架的Web應用,在Web應用啓動時就會加載並初始化Actio

2020-07-08 09:06:09

ip轉換爲數值數值轉換爲ip c++

作爲練習，自己編了一個： #include "stdafx.h" #include <iostream> #include <string> //#include <windows.h> using namespace std;

2020-07-08 09:03:05

遠程複製文件（自動輸入密碼）

在程序中，已知寫入權限的密碼。 --------------------------------------------------------------- 1 使用 DWORD WNetAddConnection2(

2020-07-08 05:51:48

爬取高清站長之家美圖（想爬多少爬多少）

方方面面總是會需要使用一些圖片做封面或背景。圖片有兩種來源：一是通過創可貼自己動手修改下就可以用了，還一種就是在網上下載圖片。那如何下載高清並且可以供使用的圖片了？我是使用的站長之家網站下載來的圖片（http://sc.chin

iplaypy(蟒蛇师)

2020-07-08 10:43:01

爬蟲-獲取指定城市所有企業信息

之前寫過一個博客：python爬蟲從企查查獲取企業信息-手工繞開企查查的登錄驗證 https://blog.csdn.net/rock4you/article/details/88254612 但只能獲取指定公司的信息，這篇博客的目的是獲

2020-07-08 08:24:13

學習爬蟲基礎6-HTTP響應狀態碼參考：

HTTP響應狀態碼參考： 1xx:信息 100 Continue 服務器僅接收到部分請求，但是一旦服務器並沒有拒絕該請求，客戶端應該繼續發送其餘的請求。 101 Switching Protocols 服務器轉換協議：服務器

疯狂打码中

2020-07-08 07:56:24

【Python成長之路】Boss直聘爬蟲第2彈：selenium找不到元素的常見問題

哈嘍大家好，我是鵬哥。今天繼續上週的主題是 —— boss直聘網站的爬蟲。 ~~~上課鈴~~~ 盜墓筆記·十年人間李常超（Lao乾媽） - 盜墓筆記·十年人間 1 寫在前面上一篇文章講的如何破解boss直聘網站的滑塊

鹏哥贼优秀

2020-07-08 06:35:40

【Python成長之路】破解Boss直聘網站滑塊驗證

哈嘍大家好，我是鵬哥。今天要記錄的內容是 —— 破解Boss直聘網站的滑塊驗證。 …… 上課鈴…… TuesdayBurak Yeter;Danelle Sandoval - Tuesday 1 寫在前面最近

鹏哥贼优秀

2020-07-08 06:35:38

4.8實驗記錄（爬取so問答）

只爬取指定的類的div from bs4 import BeautifulSoup soup=BeautifulSoup(h,'html.parser') a=soup.find_all('div',class_="post-te

2020-07-08 06:12:59

24小時熱門文章

最新文章

最新評論文章