《哪吒》最近挺火的。於是,我就想看看關於《哪吒》的好評。
打開豆瓣,找到短評,試着開始用python爬取數據。可是,折騰一波之後,發現了這個。
豆瓣從2017.10月開始全面禁止爬取數據,僅僅開放500條數據,白天1分鐘最多可以爬取40次,晚上一分鐘可爬取60次數,超過此次數則會封禁IP地址。
登錄狀態下,按網頁按鈕點擊“後頁”,參數“start”最多爲480,也就是20*25=500條;非登錄狀態下,最多爲200條。
行吧,500條就500條吧,Let's go。
整個過程:
結果展示:
總結來了
我把文章中的一些重要的內容,總結在了下面的一張圖裏,方便大家保存、查閱。
關注公衆號【小癡印記】,獲取源碼。
-END-