不帶窮字但一聽就是很窮的話----爬取微博評論

目錄

過程

代碼

結果 


昨天逛微博的時候看到熱門上有一條我很感興趣的話題---不帶窮字但一聽就是很窮的話,點進去看笑了半天出不來,裏面的人還真是個個都是人才,說話又好聽,真的超喜歡在這裏的。

下面我分享幾條高讚的回答,第一個真的絕了,


看完評論我笑了,然後把手機還給了朋友--贊[87381]


自從垃圾分類之後,食物好找多了--贊[50931]


看了標籤放下衣服,不必試穿了--贊[40559]


打微信通話吧,快欠費了--贊[26617]


時間就是金錢,你們去吧,我沒時間--贊[17623]


我家裏還有點事,我先回去了--贊[11676]


可以用花唄嗎?--贊[14167]


我愛豆是SM的 --贊[11655]


拼多多幫我點一下--贊[11544]


你們吃吧我不餓--贊[11697]


啥?人民幣都出到100塊了?--贊[9440]


爲了坐一塊錢的公交,我走了二十分鐘--贊[8034]


試穿了,不是很合身呢--贊[7474]


我錢包掉了,有個人撿到幫我送到了物業,我去拿的時候物業阿姨對我說:“證件都還在,就是裏面錢沒有了.”  從物業出來後,我坐在路邊的長椅上,心裏有點難過.  其實一分也沒有少.--贊[6997]


我可以vx付一部分,zfb付一部分,然後剩下的用現金付嗎--贊[6810]


你怕不是姓韋斯萊--贊[3627]


我這個還能用,不需要買新的。--贊[4067]


幸虧評論不要錢--贊[3950]


一元錢在你那邊能買什麼?--贊[5916]


自從垃圾分類之後,食物好找多了--贊[50944]


看了標籤放下衣服,不必試穿了--贊[40566]


打微信通話吧,快欠費了--贊[26620]


時間就是金錢,你們去吧,我沒時間--贊[17625]


我不喜歡喝奶茶,你們喝吧--贊[2808]


你的飯還吃的完吧,吃不完就讓我來處理吧,在家裏邊追劇邊用了款🍬 變美了太多!集美加油 --贊[3260]


稍稍往旁邊站站  擋着我喝西北風了--贊[2911]


要不是空氣免費我根本活不到現在--贊[2437]


你們點你們的,我就不去了--贊[1344]


我愛上了拼夕夕 卸載了🍑 --贊[1061]


外賣點滿減最多 配送費最低--贊[1103]


過程

一開始是不想耗費精力去爬的,就搞了個微博API,但是發現更鬼麻煩,返回的token時間有效賊短,運行一次又要登錄一次,返回的數據還是按時間排序的,而我想要的是前十頁左右熱門的,返回的數據還最多就800多條,聽說是API限制的原因,一個小時1000條,我勒個去,API1000條數據拿來幹嘛,還不如自己爬了。。。。返回的數據格式還花裏胡哨的,不過可能大廠就是大廠,評論表涉及的內容衆多。

這條路走不通就走小道了,以前試過爬取微博移動端的,只需要網頁端掃碼登錄一下,然後把網址改到移動端,找到保存自己的cookie保存,幾行代碼就可以搞定了,不過實踐證明有問題,數據是返回了,但是不知是不是運行速度問題,很多時候下一頁的內容還是上一頁的,所以導致了很多內容重複,不過沒關係,我只是要前幾頁的,試了下爬200頁,每頁十條數據,最後去重只有480多條。這還是加了6秒的睡眠。一開始加1秒睡眠才100多條,也許是實時更新的,點贊數每一秒都在變化。。。。


這是網址構造:https://weibo.cn/comment/hot/IFz1niHwT?rl=1&page=9  需要網頁端先登錄,不然進不去,會自動重定向到網頁端。

這是移動端的查找頁面:https://weibo.cn/search/?tf=5_012

cookie

按F12打開network->headers,下面畫了的就是cookie,保存下來要用。

代碼

import requests,time,re
headers={
"cookie": "你的cookie",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
}
file = open('不帶窮字但一聽就很窮的話_2.0.txt', 'a+',encoding='utf-8')
for i in range(1,201):
    time.sleep(1)
    res=requests.get("https://weibo.cn/comment/hot/IFz1niHwT?rl=1&page=%s"%i,headers=headers)
    # print(res.text)
    a=re.findall(r'<span class="ctt">(.*?)<',res.text)
    b=re.findall(r'f">贊(.*?)</a>',res.text)
    all_comment=[]
    for j in range(len(a)):
        c=''
        c+=a[j]+"--贊"+b[j]
        all_comment.append(c)
#     print(all_comment)
    for j in all_comment:
        file.write(str(j)+'\n')
    time.sleep(2)
    print('第%s頁--ok'%i)
file.close() 

結果 


本文純屬瞎鬧,各位看官笑了就點個贊再走吧!

我也來一句我的:一塊錢一包的優樂美,一星期只敢喝一包。

不過說真的很多時候網友還真的是很有才,把中國文字體現的淋漓盡致,句句精妙絕倫,不得不說一個字:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章