日拱一卒|數據挖掘016
之前寫過一篇用基於正則表達式來爬取豆瓣圖書信息:
requests庫實戰-爬取豆瓣top250的圖書
這次推文用BeautifulSoup代替正則表達式來抽取網頁中的文本信息
推文對應的代碼鏈接:https://github.com/piyixiaeco/daily-code/blob/master/Beautiful%20Soup-douban%20book%20top250.ipynb
主要使用三個python庫,requests,lxml,BeautifulSoup
requests庫主要是獲取網頁的內容和結構
lxml庫用來解析網頁
BeautifulSoup則是用來抽取網頁中的文本信息
第一步,導入有關的庫
第二步,構造函數allurl()
得到圖書top250所有鏈接
第三步,使用requests庫獲取網頁內容
第四步,使用BeautifulSoup來解析網頁,並提取所需信息
這裏解釋下table
:
通過查看網頁源代碼(Chrome瀏覽器Ctrl+U),可知圖書信息存放在屬性爲width=100%名稱爲table的標籤裏。比如胡塞尼的《追風箏的人》
比如東野奎吾的《解憂雜貨店》
1.獲取書名
2.獲取評分
3.獲取評價人數
4.構造函數book()
第五步,合併函數並導出表格
參考資料:
python爬取豆瓣圖書Top250