Scrapy框架安裝遇到的問題

配置環境是我覺得最能坑我們同學的地方，因爲總能遇到百度都解決不了的問題，總要拖一兩天突然自己才能解決...

先說說我的電腦環境配置.64位win7電腦，裝的是32位Python2.7。（Python已經安裝好，在cmd環境下輸入Python能交互）

安裝過程可以參考很多前輩寫的帖子。例如 http://blog.csdn.net/qy20115549/article/details/52528896 （sober_qianyang前輩的）

我主要說說我踩過的坑。

第一個：環境變量一定加配置（把C:\Python27\Scripts\添加到path裏），沒配置的話導致出現（“不是內部或外部命令，也不是可運行的程序”）

第二個：twisted這個模塊是要下載的，但是直接使用pip install 的話，會自動幫你下載最新版，但最新版是不允許scrapy安裝的，所以安裝twisted時最好、一定要安裝13.1.0的版本(參考http://blog.csdn.net/death_include/article/details/68362188，我也是受這個啓發)

第三個：終於可以用pip install scrapy也安裝完了，但是使用最簡單的scrapy startproject xxx 的時候提示不是內部和外部命令，這個也是第一個環境沒配置好。

第四個：終於能創建一個初始化的scrapy框架了，怎麼運行呢？要注意scrapy crawl XXX 這條指令也是有目錄限制的。如果你想看看在當前目錄可以運行哪個爬蟲，你可以輸入scrapy list看看。要是想在IDE裏面運行，可在設定一個新的main.py爲你的開始程序，然後在main.py裏面用os模塊，再插入dos命令到語句裏，最後運行

第五個：終於會運行了，但是一大堆紅色的反饋代碼（我是用pycharm），仔細翻翻，找到會有[scrapy.core.scraper]DEBUG:Scraped from<403...，但是狀態碼是403怎麼辦？

其實還要配置你框架裏面的setting.py，403狀態碼代表網站不允許訪問，這裏要說一下scrapy和urllib、socket訪問不一樣（scrapy很容易封？），我在setting裏面把這個改成True(ROBOTSTXT_OBEY = True)，就可以的，但是可能有些還是不行，這個我就不知道怎麼解決了..

寫得可能有點快，有錯的希望大神們指出，謝謝~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Scrapy框架安裝遇到的問題

lightdb hash index的性能和限制

根據域名獲取ip地址、端口、服務器類型和標題

Linux下Ubuntu16.04用銳捷上網的配置方式

python Crypto模塊的使用

ubuntu fwupd佔用一個cpu100%解決辦法

域名遍歷搜索python實現

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結