一、介紹
爬蟲的第一步,獲取整個網頁的HTML信息,我們已經完成(上一篇博文:http://blog.csdn.net/vinsuan1993/article/details/79367192)。接下來就是爬蟲的第二步,解析HTML信息,提取我們需要的內容。
對於本小節的實戰,我們需要提取新聞的標題、URL地址和時間。提取的方法有很多,例如使用正則表達式、Xpath、Beautiful Soup等。對於初學者而言,最容易理解,並且使用簡單的方法就是使用BeautifulSoup提取感興趣內容。這是一個強大的第三方庫,都會有一個詳細的官方文檔,Beautiful Soup也是有中文的官方文檔。
URL:http://beautifulsoup.readthedocs.io/zh_CN/latest/
二、BeautifulSoup基礎操作
DOM Tree
因爲我們在jupyter notebook中操作,所以不需要再另行安裝BeautifulSoup;
如何提取上面標籤中的內容,代碼如下:
注:使用soup下的方法select()可以將特定標籤元素取出來,需要注意的是,取出來的數據是列表(list)格式。
三、新聞資訊實例
現在,我們使用chrome開發者工具,查看一下我們的目標頁面,取得新聞的標題、時間、url,操作步驟如下:
你會看到如下內容,如下:
實例代碼如下: