[PYTHON]Scrapy學習筆記(一)思路與待解決的問題

原創

2020-06-21 14:02

Scrapy框架架構圖（圖片來自網絡）

簡要概括：

把整個Scrapy框架比喻成一個古代部隊。

1.引擎：指揮官，部隊的所有動向均需要向指揮官彙報，指揮官負責協調各個單位、部門的運作；

2.調度器：可以看成隊列，給同一單位的士兵編號，決定衝鋒順序；

3.下載器：部隊前鋒；

4.爬蟲：部隊主力；

5.管道工廠：後勤，收拾戰場；

思路：

1.爬取數據分爲三個階段，第一個階段是獲取到每一區塊總體數據量

2.爬取數據量較大，必須支持斷點續爬。對每個待爬取的數據打上標識,標識分爲（0：待爬取；2：重複數據；7：進入隊列；8：已爬取；9：已入庫）

需要解決的問題：

1.此項目爬蟲基本是通過POST方法獲取AJAX異步請求的JSON數據，因此需要改寫默認START_REQUESTS方法；

2.請求量較大，必須使用IP代理池，而且IP代理池是需求自動維護更新的；

3.某些字段值太長，甚至超過4000，注意，不建議使用LONG類型，因爲LONG類型意味着此字段你幾乎不能在數據庫中操作；

4.併發可控；

5.加入隊列或者爬取到數據後需要更改數據庫中狀態，爲避免多線程交叉改變數據狀態，必須攜帶唯一值（FID）;

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

bigqwu

谷歌api驗證 export GOOGLE_APPLICATION_CREDENTIALS="/home/user/Downloads/[FILE_NAME].json" ssh-rsa AAAAB3NzaC1yc2EAAAAD

2020-07-07 19:12:32

pandas apply lamba

import pandas as pd import numpy as np df = pd.DataFrame({'name':['Jack','Alex','Bob','Nancy','Mary','Alice','Jerr

2020-07-07 19:12:31

python 操作微信定時發信息

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on Mon Jul 6 11:52:20 2020 @author: lg """ # 導入模塊 fro

2020-07-07 19:12:31

python 任務計時器　apscheduler.schedulers

crontab 真的不好用 import pandas as pd import subprocess import os import time from datetime import datetime from apsche

2020-07-07 19:12:31

用Openpyxl做兩個Excel文件的比對

最近老是要做比對Report的工作，有個想法寫個Python小程序來比對兩個文件。以前只用過xlrd庫，處理的是xls文件，做一些簡單的數據處理這次在寫小工具的同時也學習一下新的東西由於報表是Office 2007類型（也就是Xl

2020-07-06 11:55:41

漢諾塔遞歸我理解不了怎麼辦

''' 漢諾塔——藉助B柱，將A柱的所有盤子移動到C柱上，期間小的盤子永遠在上面，一次只能移動一個盤子 ''' # 觀察問題： # 1.如果只有 1 個盤子A——>C # 2.如果有大於等於 2 個盤子，我們總可以把它們看成是 2

2020-07-06 01:13:00

10.高階函數、閉包和裝飾器

1.高階函數接收函數作爲參數 # 高階函數——接收函數作爲參數，或接收函數作爲返回值 # 定義一個函數將列表中所有的偶數保存到一個新的列表中 lst1 = [1, 2, 3, 4, 5, 6, 7, 8] # 高階函數 #

2020-07-06 01:13:00

python 學習筆記之string

在編程中，幾乎90%以上的代碼都是關於整數或字符串操作，所以與整數一樣，Python 的字符串實現也使用了許多拿優化技術，使得字符串的性能達到極致。與C++ 標準庫(STL)中的 std::string 不同，python字符串集合了許

2020-07-02 17:24:20

python 學習筆記之字典

創建方法一: >>> dict1 = {} >>> dict2 = {'name': 'earth', 'port': 80} >>> dict1, dict2 ({}, {'port': 80, 'name': 'earth'}

2020-07-02 17:24:20

python 學習筆記之list

創建列表 sample_list = ['a',1,('a','b')] Python 列表操作 sample_list = ['a','b',0,1,3] 得到列表中的某一個值 value_start = sample_list[

2020-07-02 17:24:20

白話文講計算機視覺-第一講-OPENCV圖片及視頻讀寫

大家好，我是小木，沒想到吧，我又回來了，啊哈哈哈。之前幾天我腸胃感冒，所以我的博客就一直沒有更新。但我小木是打不死的小強，這次繼續回來講解啦！本次課程我主講的內容是計算機視覺。爲什麼小木我要開這次課程呢？很簡單，因爲我之前讀了一本書，叫做

2020-07-02 16:47:54

模型部署方法

Flask 和 Google App Engine 部署模型服務使用方法將機器學習模型部署爲REST API（github)

2020-07-01 01:21:33

專題：NLP

基於Bert-NER構建特定領域中文信息抽取框架當Bert遇上Keras：這可能是Bert最簡單的打開姿勢基於TensorFlow實現Skip-Gram模型構建一個完整的中文智能問答系統 PaddlePaddle 做詞向量模型 S

2020-07-01 01:21:32

Python使用'input'讀取輸入文本出現NameError錯誤

在Python2.7中內置函數input()會將輸入數據當成指令，從鍵盤中輸入數據應該使用raw_input() 在Python3中input()函數用於從鍵盤中讀取數據 1 #!/usr/bin/python 2 #

2020-06-30 15:05:20

Python字符串格式化輸出

在Python可以使用字符串的format函數替換掉字符串中的{}格式化描述符號從而達到C中的printf效果示例代碼: #!/usr/bin/python3 amount = float(input("Enter amoun

2020-06-30 15:05:09

24小時熱門文章

最新文章

最新評論文章