scrapy Request參數

轉自
https://www.cnblogs.com/luolizhi/p/6821458.html

url: 就是需要請求,並進行下一步處理的url
callback: 指定該請求返回的Response,由那個函數來處理。
method: 一般不需要指定,使用默認GET方法請求即可
headers: 請求時,包含的頭文件。一般不需要。內容一般如下:使用 urllib2 自己寫過爬蟲的肯定知道
        Host: media.readthedocs.org
        User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0
        Accept: text/css,*/*;q=0.1
        Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
        Accept-Encoding: gzip, deflate
        Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/
        Cookie: _ga=GA1.2.1612165614.1415584110;
        Connection: keep-alive
        If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT
        Cache-Control: max-age=0
meta: 比較常用,在不同的請求之間傳遞數據使用的。字典dict型
        request_with_cookies = Request(url="http://www.example.com",
                                       cookies={'currency': 'USD', 'country': 'UY'},
                                       meta={'dont_merge_cookies': True})
encoding: 使用默認的 'utf-8' 就行。
dont_filter: indicates that this request should not be filtered by the scheduler.
             This is used when you want to perform an identical request multiple times,
             to ignore the duplicates filter. Use it with care, or you will get into crawling loops.
             Default to False.
errback: 指定錯誤處理函數
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章