BeautifulSoup庫實戰-爬取豆瓣top250圖書

原創

2019-02-21 13:24

日拱一卒|數據挖掘016

之前寫過一篇用基於正則表達式來爬取豆瓣圖書信息：
requests庫實戰-爬取豆瓣top250的圖書

這次推文用BeautifulSoup代替正則表達式來抽取網頁中的文本信息

推文對應的代碼鏈接：https://github.com/piyixiaeco/daily-code/blob/master/Beautiful%20Soup-douban%20book%20top250.ipynb

主要使用三個python庫，requests，lxml，BeautifulSoup
requests庫主要是獲取網頁的內容和結構
lxml庫用來解析網頁
BeautifulSoup則是用來抽取網頁中的文本信息

第一步，導入有關的庫

第二步，構造函數`allurl()`得到圖書top250所有鏈接

第三步，使用requests庫獲取網頁內容

第四步，使用BeautifulSoup來解析網頁，並提取所需信息

這裏解釋下table：
通過查看網頁源代碼（Chrome瀏覽器Ctrl+U），可知圖書信息存放在屬性爲width=100%名稱爲table的標籤裏。比如胡塞尼的《追風箏的人》

比如東野奎吾的《解憂雜貨店》

1.獲取書名

Python strip()方法

2.獲取評分

3.獲取評價人數

4.構造函數book()

第五步，合併函數並導出表格

參考資料：
python爬取豆瓣圖書Top250

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

關於爬蟲，你需要知道的BeautifulSoup(二)

2019-02-19 14:02:51

關於爬蟲，你需要知道的BeautifulSoup(一)

2019-02-16 14:05:35

requests庫實戰-爬取豆瓣top250的圖書

2019-02-09 13:53:36

關於爬蟲，你需要知道的requests庫

2019-02-05 14:10:15

關於爬蟲，你需要知道的re庫

2019-02-04 13:28:24

關於爬蟲，你需要曉得的正則表達式

2019-02-03 13:36:47

關於爬蟲，你需要了解的HTTP協議

2019-02-01 13:31:18

爬蟲|URL和URI有什麼不一樣

2019-02-01 13:31:18

關於爬蟲，你需要知道的HTML知識

2019-01-30 13:25:16

爬蟲|崔神的乾貨總結

2019-01-29 13:57:03

爬蟲|網絡類型和分層協議

2019-01-17 13:27:49

【Python】保存gym截圖

如果想做基於圖像cnn的深度強化學習，需要拿到gym的截圖，下面是兩種截圖方法。 1. 利用render結果生成圖像： import gym import warnings import os from PIL import Image

2024-05-13 14:11:08

win10 22H2

Windows 10 update history https://support.microsoft.com/en-gb/topic/windows-10-update-history-8127c2c6-6edf-4fdf-8b9f-0f

2024-05-13 14:06:58

【譯】使用 GitHub Copilot 作爲你的編碼 GPS

　　GitHub Copilot 是一個改變遊戲規則的人工智能助手，可以徹底改變您在 Visual Studio 中的編碼流程。在我們的視頻系列中，Bruno Capuano 探討了這個智能編碼夥伴如何幫助您更有效地編寫代碼，同時保持質量

2024-05-13 14:06:38

兩個有趣的AI項目

　　最近看到一個比較有意思的 AI 項目，叫 AI 時間線，顧名思義，就是藉助 AI 來創建某個關鍵字的時間線。主頁界面很簡單，就是一個輸入框。　　　　我在輸入辛亥革命後，就會生成下圖的時間線，將辛亥革命的各個關鍵點都列了出來。我看到這

咖啡機（K.F.J）

2024-05-13 14:05:57

24小時熱門文章

最新文章

最新評論文章