scrapy方法總結

spiders文件夾的.py爬蟲文件

方法或參數名 用法
name 每個項目唯一的名字,用來區分不同的 Spider
allowed_domains 是允許爬取的域名,如果初始或後續的請求鏈接不是這個域名下的,則請求鏈接會被過濾掉
start_urls 包含了 Spider 在啓動時爬取的 url 列表,初始請求是由它來定義的
parse Spider 的一個方法。默認情況下,被調用時 start_urls 裏面的鏈接構成的請求完成下載執行後,返回的響應就會作爲唯一的參數傳遞給這個函數。該方法負責解析返回的響應、提取數據或者進一步生成要處理的請求。

pipelines.py

方法或參數名 用法
process_item() 有兩個參數。參數item:每次 Spider 生成的 Item 都會作爲參數傳遞過來。參數 spider:就是 Spider 的實例。該方法必須返回包含數據的字典或 Item 對象,或者拋出 DropItem 異常。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章