BeautifulSoup簡介:day3

BeautifulSoup簡介:

一、BeautifulSoup功能

網頁解析 , HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 數據。

1解析原理

通過定位 HTML 標籤來 格式化和組織複雜的網絡信息

2 編碼方式

Beautiful Soup自動將輸入文檔轉換爲Unicode編碼輸出文檔轉換爲utf-8編碼

3 其他解析器

BeautifulSoup支持Python標準庫中的HTML解析器,還支持一些第三方的解析器,如果我們不安裝它,則 Python 會使用 Python默認的解析器,lxml 解析器更加強大,速度更快,推薦使用lxml 解析器。

二、BeautifulSoup4四大對象種類

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

1.Tag

定義:Tag通俗點講就是HTML中的一個個標籤

The Dormouse's story Tag屬性: **name 和 attrs**

對象的類型是bs4.element.Tag。但是注意,它查找的是在所有內容中的第一個符合要求的標籤

2、NavigableString

獲取標籤內部的文字

3、BeautifulSoup

BeautifulSoup對象表示的是一個文檔的內容

4、Comment

Comment 對象是一個特殊類型的 NavigableString 對象,其輸出的內容不包括註釋符號。

象是一個特殊類型的 NavigableString 對象,其輸出的內容不包括註釋符號。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章