python爬蟲中的requests和bs4

爬蟲的理解

對網站信息進行爬取都是在對網站的源碼進行查看和分析的基礎上進行的。爬蟲的第一步,首先要進入網站,審查元素,根據爬蟲的需要選擇url地址,進行重點內容的爬取。

requests

requests第三方模塊安裝導入後,可根據url地址進行網頁信息的獲取。
requests.get(url) 獲取網頁。
接下來就可將獲取到的信息交給BeautifulSoup進行處理了。

BS4

bs4全名爲BeautifulSoup,主要作用是對獲取的html標籤進行解析。
BeautifulSoup對象:整個html文本對象,可當作Tag對象。然後可在對象中提取需要的內容,保存到想要保存的地方。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章