BeautifulSoup簡介:
文章目錄
一、BeautifulSoup功能
網頁解析 , HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 數據。
1解析原理
通過定位 HTML 標籤來 格式化和組織複雜的網絡信息
2 編碼方式
Beautiful Soup自動將輸入文檔轉換爲Unicode編碼,輸出文檔轉換爲utf-8編碼。
3 其他解析器
BeautifulSoup支持Python標準庫中的HTML解析器,還支持一些第三方的解析器,如果我們不安裝它,則 Python 會使用 Python默認的解析器,lxml 解析器更加強大,速度更快,推薦使用lxml 解析器。
二、BeautifulSoup4四大對象種類
- Tag
- NavigableString
- BeautifulSoup
- Comment
1.Tag
定義:Tag通俗點講就是HTML中的一個個標籤
對象的類型是bs4.element.Tag。但是注意,它查找的是在所有內容中的第一個符合要求的標籤。
2、NavigableString
獲取標籤內部的文字
3、BeautifulSoup
BeautifulSoup對象表示的是一個文檔的內容
4、Comment
Comment 對象是一個特殊類型的 NavigableString 對象,其輸出的內容不包括註釋符號。
象是一個特殊類型的 NavigableString 對象,其輸出的內容不包括註釋符號。