手把手教你使用Python抓取QQ音樂數據(第一彈)

【一、項目目標】

獲取 QQ 音樂指定歌手單曲排行指定頁數的歌曲的歌名、專輯名、播放鏈接。

由淺入深,層層遞進,非常適合剛入門的同學練手。

【二、需要的庫】

主要涉及的庫有:requests、json、openpyxl

【三、項目實現】

1.瞭解 QQ 音樂網站的 robots 協議

只禁止播放列表,可以操作。

2.進入 QQ 音樂主頁 https://y.qq.com/

3.輸入任意歌手,比如鄧紫棋

4.打開審查元素(快捷鍵 Ctrl+Shift+I)

5.分析網頁源代碼 Elements,發現無歌曲信息,無法使用 BeautifulSoup,如下圖所示,結果爲空。

6.點擊 Network,看數據在不在 XHR(無刷新更新頁

面),我的經驗是先看 Size 最大的,然後分析 Name,

查看 Preview,果然在裏面!

7.點擊 Headers,拿到相關參數。如下圖,仔細觀察

url 與 Query String Parameters 參數的關係,發現

url 中的 w 代表歌手名,p 代表頁數。

8.通過 json 代碼實現,首先小試牛刀,爬取第一頁

的數據,url 直接複製過來。成功!

9.引入 params 參數,實現指定歌手、指定頁數的查詢。

注意代碼url爲上一步url中“?”之前的部分, params兩邊的參數都需要加 ’’,requests.get 添加 params,參數(也可順便添加 headers 參數)

  1. 添加存儲功能,保存到本地(Excel)。也可保存爲 csv 格式或存入數據庫,操作類似。

【四、總結】

1.爬取 QQ 音樂比爬取豆瓣等網站稍難,所需信息不在網頁源代碼,需查看 XHR;

2.通過 XHR 爬取數據一般要使用 json,格式爲:

res = requests.get(url)
json = res.json()
list = json‘’…
3.僅供練手參考,不建議爬取太多數據,給服務器增大負載;

4.Python 爬取 QQ 音樂數據(二)將爲大家帶來如何爬取指定歌曲的歌詞及評論(selenium),並生成詞雲圖(wordcloud),敬請期待。

5.需要本文源碼的話,請在公衆號後臺回覆“QQ音樂”四個字進行獲取。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章