Scrapy框架安裝遇到的問題

配置環境是我覺得最能坑我們同學的地方,因爲總能遇到百度都解決不了的問題,總要拖一兩天突然自己才能解決...

先說說我的電腦環境配置.64位win7電腦,裝的是32位Python2.7。(Python已經安裝好,在cmd環境下輸入Python能交互)

安裝過程可以參考很多前輩寫的帖子。例如 http://blog.csdn.net/qy20115549/article/details/52528896 (sober_qianyang前輩的)

我主要說說我踩過的坑。

第一個:環境變量一定加配置(把C:\Python27\Scripts\添加到path裏),沒配置的話導致出現(“不是內部或外部命令,也不是可運行的程序”)

第二個:twisted這個模塊是要下載的,但是直接使用pip install 的話,會自動幫你下載最新版,但最新版是不允許scrapy安裝的,所以安裝twisted時最好、一定要安裝13.1.0的版本(參考http://blog.csdn.net/death_include/article/details/68362188,我也是受這個啓發)

第三個:終於可以用pip install scrapy也安裝完了,但是使用最簡單的scrapy startproject xxx 的時候提示不是內部和外部命令,這個也是第一個環境沒配置好。

第四個:終於能創建一個初始化的scrapy框架了,怎麼運行呢?要注意scrapy crawl XXX 這條指令也是有目錄限制的。如果你想看看在當前目錄可以運行哪個爬蟲,你可以輸入scrapy list看看。要是想在IDE裏面運行,可在設定一個新的main.py爲你的開始程序,然後在main.py裏面用os模塊,再插入dos命令到語句裏,最後運行

第五個:終於會運行了,但是一大堆紅色的反饋代碼(我是用pycharm),仔細翻翻,找到會有[scrapy.core.scraper]DEBUG:Scraped from<403...,但是狀態碼是403怎麼辦?

其實還要配置你框架裏面的setting.py,403狀態碼代表網站不允許訪問,這裏要說一下scrapy和urllib、socket訪問不一樣(scrapy很容易封?),我在setting裏面把這個改成True(ROBOTSTXT_OBEY = True),就可以的,但是可能有些還是不行,這個我就不知道怎麼解決了..


寫得可能有點快,有錯的希望大神們指出,謝謝~


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章