網絡爬蟲實戰2——BeautifulSoup基礎操作

原創

2020-02-24 11:36

一、介紹

爬蟲的第一步，獲取整個網頁的HTML信息，我們已經完成（上一篇博文：http://blog.csdn.net/vinsuan1993/article/details/79367192）。接下來就是爬蟲的第二步，解析HTML信息，提取我們需要的內容。

對於本小節的實戰，我們需要提取新聞的標題、URL地址和時間。提取的方法有很多，例如使用正則表達式、Xpath、Beautiful Soup等。對於初學者而言，最容易理解，並且使用簡單的方法就是使用BeautifulSoup提取感興趣內容。這是一個強大的第三方庫，都會有一個詳細的官方文檔，Beautiful Soup也是有中文的官方文檔。

URL：http://beautifulsoup.readthedocs.io/zh_CN/latest/

二、BeautifulSoup基礎操作

DOM Tree

因爲我們在jupyter notebook中操作，所以不需要再另行安裝BeautifulSoup；

如何提取上面標籤中的內容，代碼如下：

注：使用soup下的方法select()可以將特定標籤元素取出來，需要注意的是，取出來的數據是列表（list）格式。

三、新聞資訊實例

現在，我們使用chrome開發者工具，查看一下我們的目標頁面，取得新聞的標題、時間、url，操作步驟如下：

你會看到如下內容，如下：

實例代碼如下：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

python網絡爬蟲系列（二）——ProxyHandler處理器實現代理IP

ProxyHandler處理器（代理）：很多網站會檢測某一段時間某個IP的訪問次數（通過流量統計，系統日誌等），如果訪問次數多的不像正常人，它會禁止這個lP的訪問。所以我們可以設置一些代理服務器，每隔一段時間換一個代理，就算

小小白学计算机

2020-07-06 10:33:59

python網絡爬蟲系列（三）——cookie的原理、保存與加載

一、什麼是cookie？在網站中,http請求是無狀態的.也就是說即使第一次和服務器連接後並且登錄成功後,第二次請求服務器依然不能知道當前請求是哪個用戶。 cookie的出現就是爲了解決這個問題,第一次登錄後服務器返回一些數據(

小小白学计算机

2020-07-06 10:33:59

python網絡爬蟲系列（一）——urllib庫（urlopen、urlretrieve、urlencode、parse-qs、urlparse和urlsplit、request.Request類）

urllib庫 urllib庫是Python中一個最基本的網絡請求庫。可以模擬瀏覽器的行爲，向指定的服務器發送一個請求，並可以保存服務器返回的數據。一、urlopen函數：在Python3的urllib庫中，所有和網絡請求相關

小小白学计算机

2020-07-06 10:33:59

Python網絡爬蟲(二十三)——Redis

概述 redis 是一種支持分佈式的非關係型數據庫，數據是保存在內存中，同時 redis 可以定時把內存數據同步到磁盤，即可以將數據持久化，並且 Redis 比 memcached 支持更多的數據結構。 redis 和 memcached

2020-07-04 17:05:22

requests.exceptions.SSLError: HTTPSConnectionPool(host='item.jd.com', port=443)

requests的get方法 import requests r = requests.get("https://item.jd.com/100004788063.html") 報錯： Traceback (most recen

2020-06-29 03:13:24

【python實現網絡爬蟲（17）】使用正則表達式爬取百度以任意關鍵詞搜索返回結果的數據

正則表達式爬取百度搜索結果1. 爬蟲架構2. 創建分頁url2.1 網頁url規律查找2.2 創建接口輸出url測試3 正則表達式匹配3.1 直接匹配源代碼3.2 配合網頁解析進行結果匹配4. 小結5. 全部代碼5.1 re +

2020-06-26 23:59:09

【python實現網絡爬蟲（12）】JSON解析之爬取騰訊新聞

目標網址：騰訊新聞，頁面如下 1. 尋找json接口在目標頁面點擊鼠標右鍵進行’檢查’，然後選擇'Network'，再點擊’網頁刷新’按鈕，接着在右下區域內彈出的內容上選擇具有pull_url標識的文件，最後點擊'Previe

2020-06-26 23:08:28

【python實現網絡爬蟲（16）】JSON網易動態新聞爬取（ajax請求爬取信息過程詳解，附全部源代碼）

1. Ajax 介紹 Ajax 即“Asynchronous Javascript And XML”（異步 JavaScript 和 XML），是指一種創建交互式、快速動態網頁應用的網頁開發技術，無需重新加載整個網頁的情況下，能夠

2020-06-26 23:08:28

python爬取數據--存儲mysql數據庫

一.安裝mysql：在官網：https://dev.mysql.com/downloads/mysql/ 二.安裝驅動程序：在python集成開發環境Anaconda下，需用命令：pip3 install pymysql或con

2020-06-22 08:38:51

爬取數據存儲於Excel表

一.利用pandas庫直接存儲爲Excel文件；主要技術點： 1.首先建立列表，存儲每一次爬取的內容，爲後面的字典存儲做準備； 2.利用字典格式儲存數據； 3. 利用pandas中DataFram

2020-06-22 08:38:50

python網絡爬蟲--必會基礎

閱讀目錄一、爬蟲是什麼二、爬蟲的基本流程三、http協議和https協議的區別四、 request與Response之間的關係五、 request請求詳細總結以及常用請求方式和參數六、Response響應詳細總結以及參數

2020-06-22 08:38:50

python網絡爬蟲——使用selenium抓取東方財富網上市公司公告

每日公告數量@TOC 一、數據獲取與預處理本文從東方財富網上市公司公告頁面獲取滬深A股1991-2019年公告數據，按照數據獲取的先後順序，將數據分爲以下兩個部分一是上市公司公告信息，包括：序號（index）、股票代碼（code

2020-06-21 02:04:45

python網絡爬蟲筆記-python3基礎回顧

一、IO編程 IO在計算機中指的是Input/Output，凡是用到數據交換的地方都會涉及IO編程，例如磁盤、網絡數據傳輸。 1.文件讀寫 1.打開文件 python內置了讀寫文件的函數，文件讀寫之前需要打開文件，確定文件

2020-06-20 02:49:55

Python urllib的urlretrieve()函數解析

urllib模塊提供的urlretrieve()函數。urlretrieve()方法直接將遠程數據下載到本地。 urlretrieve(url, filename=None, reporthook=None, data=None) 參數

2020-06-19 11:30:37

python網絡數據挖掘--JS隱式等待和顯式等待

第一部分：隱式等待和顯式等待隱式等待和顯式等待的不同之處在於，隱式等待是等DOM中某個狀態發生改變後再繼續運行代碼（沒有明確的等待時間，但是有最大等待期限，只要在時限內就可以），而顯式等待明確設置了等待時間，如上篇文章中等待三

2020-06-16 09:30:32

24小時熱門文章

最新文章

最新評論文章