爬蟲進階-----scrapy框架初探二

課堂複習

●1你要知道怎樣創建一 個scrapy項目scrapy startproject xXX
●2你要知道怎麼創建一個爬蟲項目
。先要進入到scrapy這個路徑下
。生成一個爬蟲項目scrapy genspider demo xxx.com
。幾個文件1>爬蟲文件(allowed_ domains
start
urls開始的可以修改的parse函數寫爬蟲的邏輯xpath)
。返回的數據yield scrapy.Request(url=url,callback=None,meta=None)
。settings文件 LOG
LEVEL = 'WARNING’管道的註釋LOG FILE ="./log.log’設置UA
。piplines處理數據(保存數據)
。logging保存一個文件
。items 可以自己定義字段。那麼自己定義的地段需要在爬蟲文件先導入然後使用,不使用則報錯

loggin模塊的使用

import scrapy
import logging
logger = logging. getLogger(__ name__)
class QbSpider(scrapy. Spider):
	name ='qb'
	allowed_ domains = [ ' qiushibaike.com'l
	start_ urls = ['http: //qiushibaike.com/ ' ]
	def parse(self, response) :
		for i in range(10) :
			item = {}
			item[ 'content'] = "haha"
			# logging. warning( item )
			logger . warning( item)
			yield item


pipeline文件
import logging
logger = logging. getLogger(__ name__ )
class MyspiderP
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章