課堂複習
●1你要知道怎樣創建一 個scrapy項目scrapy startproject xXX
●2你要知道怎麼創建一個爬蟲項目
。先要進入到scrapy這個路徑下
。生成一個爬蟲項目scrapy genspider demo xxx.com
。幾個文件1>爬蟲文件(allowed_ domains
start urls開始的可以修改的parse函數寫爬蟲的邏輯xpath)
。返回的數據yield scrapy.Request(url=url,callback=None,meta=None)
。settings文件 LOG LEVEL = 'WARNING’管道的註釋LOG FILE ="./log.log’設置UA
。piplines處理數據(保存數據)
。logging保存一個文件
。items 可以自己定義字段。那麼自己定義的地段需要在爬蟲文件先導入然後使用,不使用則報錯
loggin模塊的使用
import scrapy
import logging
logger = logging. getLogger(__ name__)
class QbSpider(scrapy. Spider):
name ='qb'
allowed_ domains = [ ' qiushibaike.com'l
start_ urls = ['http: //qiushibaike.com/ ' ]
def parse(self, response) :
for i in range(10) :
item = {}
item[ 'content'] = "haha"
# logging. warning( item )
logger . warning( item)
yield item
pipeline文件
import logging
logger = logging. getLogger(__ name__ )
class MyspiderP