目錄
昨天逛微博的時候看到熱門上有一條我很感興趣的話題---不帶窮字但一聽就是很窮的話,點進去看笑了半天出不來,裏面的人還真是個個都是人才,說話又好聽,真的超喜歡在這裏的。
下面我分享幾條高讚的回答,第一個真的絕了,
看完評論我笑了,然後把手機還給了朋友--贊[87381]
自從垃圾分類之後,食物好找多了--贊[50931]
看了標籤放下衣服,不必試穿了--贊[40559]
打微信通話吧,快欠費了--贊[26617]
時間就是金錢,你們去吧,我沒時間--贊[17623]
我家裏還有點事,我先回去了--贊[11676]
可以用花唄嗎?--贊[14167]
我愛豆是SM的 --贊[11655]
拼多多幫我點一下--贊[11544]
你們吃吧我不餓--贊[11697]
啥?人民幣都出到100塊了?--贊[9440]
爲了坐一塊錢的公交,我走了二十分鐘--贊[8034]
試穿了,不是很合身呢--贊[7474]
我錢包掉了,有個人撿到幫我送到了物業,我去拿的時候物業阿姨對我說:“證件都還在,就是裏面錢沒有了.” 從物業出來後,我坐在路邊的長椅上,心裏有點難過. 其實一分也沒有少.--贊[6997]
我可以vx付一部分,zfb付一部分,然後剩下的用現金付嗎--贊[6810]
你怕不是姓韋斯萊--贊[3627]
我這個還能用,不需要買新的。--贊[4067]
幸虧評論不要錢--贊[3950]
一元錢在你那邊能買什麼?--贊[5916]
自從垃圾分類之後,食物好找多了--贊[50944]
看了標籤放下衣服,不必試穿了--贊[40566]
打微信通話吧,快欠費了--贊[26620]
時間就是金錢,你們去吧,我沒時間--贊[17625]
我不喜歡喝奶茶,你們喝吧--贊[2808]
你的飯還吃的完吧,吃不完就讓我來處理吧,在家裏邊追劇邊用了款🍬 變美了太多!集美加油 --贊[3260]
稍稍往旁邊站站 擋着我喝西北風了--贊[2911]
要不是空氣免費我根本活不到現在--贊[2437]
你們點你們的,我就不去了--贊[1344]
我愛上了拼夕夕 卸載了🍑 --贊[1061]
外賣點滿減最多 配送費最低--贊[1103]
過程
一開始是不想耗費精力去爬的,就搞了個微博API,但是發現更鬼麻煩,返回的token時間有效賊短,運行一次又要登錄一次,返回的數據還是按時間排序的,而我想要的是前十頁左右熱門的,返回的數據還最多就800多條,聽說是API限制的原因,一個小時1000條,我勒個去,API1000條數據拿來幹嘛,還不如自己爬了。。。。返回的數據格式還花裏胡哨的,不過可能大廠就是大廠,評論表涉及的內容衆多。
這條路走不通就走小道了,以前試過爬取微博移動端的,只需要網頁端掃碼登錄一下,然後把網址改到移動端,找到保存自己的cookie保存,幾行代碼就可以搞定了,不過實踐證明有問題,數據是返回了,但是不知是不是運行速度問題,很多時候下一頁的內容還是上一頁的,所以導致了很多內容重複,不過沒關係,我只是要前幾頁的,試了下爬200頁,每頁十條數據,最後去重只有480多條。這還是加了6秒的睡眠。一開始加1秒睡眠才100多條,也許是實時更新的,點贊數每一秒都在變化。。。。
這是網址構造:https://weibo.cn/comment/hot/IFz1niHwT?rl=1&page=9 需要網頁端先登錄,不然進不去,會自動重定向到網頁端。
這是移動端的查找頁面:https://weibo.cn/search/?tf=5_012
cookie
按F12打開network->headers,下面畫了的就是cookie,保存下來要用。
代碼
import requests,time,re
headers={
"cookie": "你的cookie",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
}
file = open('不帶窮字但一聽就很窮的話_2.0.txt', 'a+',encoding='utf-8')
for i in range(1,201):
time.sleep(1)
res=requests.get("https://weibo.cn/comment/hot/IFz1niHwT?rl=1&page=%s"%i,headers=headers)
# print(res.text)
a=re.findall(r'<span class="ctt">(.*?)<',res.text)
b=re.findall(r'f">贊(.*?)</a>',res.text)
all_comment=[]
for j in range(len(a)):
c=''
c+=a[j]+"--贊"+b[j]
all_comment.append(c)
# print(all_comment)
for j in all_comment:
file.write(str(j)+'\n')
time.sleep(2)
print('第%s頁--ok'%i)
file.close()
結果
本文純屬瞎鬧,各位看官笑了就點個贊再走吧!
我也來一句我的:一塊錢一包的優樂美,一星期只敢喝一包。
不過說真的很多時候網友還真的是很有才,把中國文字體現的淋漓盡致,句句精妙絕倫,不得不說一個字:強!