不帶窮字但一聽就是很窮的話----爬取微博評論

原創

2020-05-01 03:13

過程

代碼

結果

昨天逛微博的時候看到熱門上有一條我很感興趣的話題---不帶窮字但一聽就是很窮的話，點進去看笑了半天出不來，裏面的人還真是個個都是人才，說話又好聽，真的超喜歡在這裏的。

下面我分享幾條高讚的回答，第一個真的絕了，

看完評論我笑了，然後把手機還給了朋友--贊[87381]

自從垃圾分類之後，食物好找多了--贊[50931]

看了標籤放下衣服，不必試穿了--贊[40559]

打微信通話吧，快欠費了--贊[26617]

時間就是金錢，你們去吧，我沒時間--贊[17623]

我家裏還有點事，我先回去了--贊[11676]

可以用花唄嗎？--贊[14167]

我愛豆是SM的 --贊[11655]

拼多多幫我點一下--贊[11544]

你們吃吧我不餓--贊[11697]

啥？人民幣都出到100塊了？--贊[9440]

爲了坐一塊錢的公交，我走了二十分鐘--贊[8034]

試穿了，不是很合身呢--贊[7474]

我錢包掉了，有個人撿到幫我送到了物業，我去拿的時候物業阿姨對我說：“證件都還在，就是裏面錢沒有了.” 從物業出來後，我坐在路邊的長椅上，心裏有點難過. 其實一分也沒有少.--贊[6997]

我可以vx付一部分，zfb付一部分，然後剩下的用現金付嗎--贊[6810]

你怕不是姓韋斯萊--贊[3627]

我這個還能用，不需要買新的。--贊[4067]

幸虧評論不要錢--贊[3950]

一元錢在你那邊能買什麼？--贊[5916]

自從垃圾分類之後，食物好找多了--贊[50944]

看了標籤放下衣服，不必試穿了--贊[40566]

打微信通話吧，快欠費了--贊[26620]

時間就是金錢，你們去吧，我沒時間--贊[17625]

我不喜歡喝奶茶，你們喝吧--贊[2808]

你的飯還吃的完吧，吃不完就讓我來處理吧，在家裏邊追劇邊用了款🍬 變美了太多！集美加油 --贊[3260]

稍稍往旁邊站站擋着我喝西北風了--贊[2911]

要不是空氣免費我根本活不到現在--贊[2437]

你們點你們的，我就不去了--贊[1344]

我愛上了拼夕夕卸載了🍑 --贊[1061]

外賣點滿減最多配送費最低--贊[1103]

過程

一開始是不想耗費精力去爬的，就搞了個微博API，但是發現更鬼麻煩，返回的token時間有效賊短，運行一次又要登錄一次，返回的數據還是按時間排序的，而我想要的是前十頁左右熱門的，返回的數據還最多就800多條，聽說是API限制的原因，一個小時1000條，我勒個去，API1000條數據拿來幹嘛，還不如自己爬了。。。。返回的數據格式還花裏胡哨的，不過可能大廠就是大廠，評論表涉及的內容衆多。

這條路走不通就走小道了，以前試過爬取微博移動端的，只需要網頁端掃碼登錄一下，然後把網址改到移動端，找到保存自己的cookie保存，幾行代碼就可以搞定了，不過實踐證明有問題，數據是返回了，但是不知是不是運行速度問題，很多時候下一頁的內容還是上一頁的，所以導致了很多內容重複，不過沒關係，我只是要前幾頁的，試了下爬200頁，每頁十條數據，最後去重只有480多條。這還是加了6秒的睡眠。一開始加1秒睡眠才100多條，也許是實時更新的，點贊數每一秒都在變化。。。。

這是網址構造：https://weibo.cn/comment/hot/IFz1niHwT?rl=1&page=9 需要網頁端先登錄，不然進不去，會自動重定向到網頁端。

這是移動端的查找頁面：https://weibo.cn/search/?tf=5_012

按F12打開network->headers，下面畫了的就是cookie，保存下來要用。

代碼

import requests,time,re
headers={
"cookie": "你的cookie",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
}
file = open('不帶窮字但一聽就很窮的話_2.0.txt', 'a+',encoding='utf-8')
for i in range(1,201):
    time.sleep(1)
    res=requests.get("https://weibo.cn/comment/hot/IFz1niHwT?rl=1&page=%s"%i,headers=headers)
    # print(res.text)
    a=re.findall(r'<span class="ctt">(.*?)<',res.text)
    b=re.findall(r'f">贊(.*?)</a>',res.text)
    all_comment=[]
    for j in range(len(a)):
        c=''
        c+=a[j]+"--贊"+b[j]
        all_comment.append(c)
#     print(all_comment)
    for j in all_comment:
        file.write(str(j)+'\n')
    time.sleep(2)
    print('第%s頁--ok'%i)
file.close()

結果

本文純屬瞎鬧，各位看官笑了就點個贊再走吧！

我也來一句我的：一塊錢一包的優樂美，一星期只敢喝一包。

不過說真的很多時候網友還真的是很有才，把中國文字體現的淋漓盡致，句句精妙絕倫，不得不說一個字：強！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

不帶窮字但一聽就是很窮的話----爬取微博評論

過程

代碼

結果

python腳本處理事務例子

個人博客記錄

翻譯工具包：word+txt 完結篇

你說的每一句我都記着，還帶時間呢：簡潔版紀念日

你真的會在Linux系統安裝應用？

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結