爬取《哪吒》豆瓣短評,我獲得了什麼?

《哪吒》最近挺火的。於是,我就想看看關於《哪吒》的好評。

打開豆瓣,找到短評,試着開始用python爬取數據。可是,折騰一波之後,發現了這個。

豆瓣從2017.10月開始全面禁止爬取數據,僅僅開放500條數據,白天1分鐘最多可以爬取40次,晚上一分鐘可爬取60次數,超過此次數則會封禁IP地址。

登錄狀態下,按網頁按鈕點擊“後頁”,參數“start”最多爲480,也就是20*25=500條;非登錄狀態下,最多爲200條。

行吧,500條就500條吧,Let's go。

整個過程:

  • 獲取豆瓣短評數據
  • 詞雲可視化
  • 結果展示:

    總結來了

    我把文章中的一些重要的內容,總結在了下面的一張圖裏,方便大家保存、查閱。

    關注公衆號【小癡印記】,獲取源碼。

    -END-

    發表評論
    所有評論
    還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
    相關文章