bs4 '4.8.2'版本html解析錯誤（使用findall方法查找link標籤，返回中包含style標籤）

原創

2020-06-23 06:00

大概率因爲頁面存在註釋，例如：

所以返回的列表中錯誤包含別的標籤，而不是查找的標籤。

但是標籤的個數和頁面對得上。

html.parser需要背這個鍋。

使用html5lib，可以正常解析。但需要額外安裝，pip install html5lib

beautifulsoup(markup,'html5lib')

lxml庫也可以解決這個問題，但安裝較慢比較拼人品。pip install lxml

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

探祕Python爬蟲技術：王者榮耀英雄圖片爬取

項目需求作爲一款風靡全球的MOBA遊戲，《王者榮耀》擁有衆多精美絕倫的英雄角色。玩家們對於自己心愛的英雄角色總是充滿着熱情和好奇。他們渴望收集自己喜歡的英雄的圖片，用於做壁紙、頭像或者分享給朋友。然而，要手動一張一張地下載這些圖片實

2024-04-19 23:26:23

使用urllib和BeautifulSoup解析網頁中的視頻鏈接

一、概述在當今數字化社會中，視頻內容已經成爲互聯網上最受歡迎的形式之一。而抖音作爲全球領先的短視頻平臺，每天都有數以億計的用戶在其中分享各種各樣的視頻內容。對於開發者來說，獲取抖音視頻鏈接並進行進一步的處理和分析是一項有趣且具有挑戰性

2024-04-15 23:27:55

北方“喫土”預警，沙塵暴又雙叒叕來了

4月10日晚間，一場影響北方大部地區的沙塵暴引發大家的關注，北京發佈大風、沙塵暴雙預警，不少網友表示出門像打開“護眼模式”並且值得關注的是目前的這次沙塵天氣過程是今年以來第8次，常年同期的沙塵過程次數是5至6次，今年沙塵出現的次數略偏多

2023-04-12 00:09:22

使用 Beautiful Soup 在 Python 中抓取網頁

本文討論如何使用 Beautiful Soup 庫從 HTML 頁面中提取內容。提取後，我們將使用 Beautiful Soup 將其轉換爲 Python 列表或字典。爲了讓網絡抓取在 Python 中工作，我們將執行三個基本

Linux就該這麼學

2021-12-27 09:20:02

爬取多篇知乎網文章內容

一、獲取網頁鏈接找到自己想要爬取的文章把它們加入urls字典中 1 def get_url(): 2 urls=[]#獲取多條網頁鏈接將它們存入urls中 3 urls.append('http://daily.zhih

2021-12-25 21:46:50

在 Python 字符串中解碼 HTML 實體？ - Decode HTML entities in Python string?

問題： I'm parsing some HTML with Beautiful Soup 3, but it contains HTML entities which Beautiful Soup 3 doesn't automatic

2021-10-07 09:16:18

手把手教你用 Pandas 分析全國城市房價

大家好，我是小五🧐 Pandas靈活好用，能夠完成複雜的、重複的、批量的數據處理。本文教你利用Pandas爬取房價，以及分析全國城市的房價。 Pandas在配合做網絡數據採集爬蟲時，也能發揮其優勢，可承擔數據調用、數據存儲的

2021-08-07 09:13:20

Python系列爬蟲之Github用戶數據爬蟲

前言主要目標是爬取Github上指定用戶的粉絲數據以及對爬取到的數據進行一波簡單的可視化分析。讓我們愉快地開始吧~ 開發工具 Python版本：3.6.4 相關模塊： bs4模塊； requests模塊； argparse模塊； py

2021-04-17 21:24:20

Python3線程池和有序隊列下載小說

引言本人也是一個小說愛好者，有些新出來的小說找遍全網也沒有下載入口，但是大部分網站都可以免費閱讀。那不如使用python的爬蟲庫將內容爬下來再保存到txt文件中，再傳入手機或者閱讀器來閱讀。解析網站查看章節標籤先找到一個小說網站，

2021-03-22 21:19:07

Python爬取微博熱搜數據之炫酷可視化

可視化展示看完記得點個贊喲微博炫酷可視化音樂組合版來了！項目介紹背景現階段，微博、抖音、快手、譁哩譁哩、微信公衆號已經成爲不少年輕人必備的“生活神器”。在21世紀的今天，你又是如何獲取外界的信息資源的？相信很多小夥伴應該

2021-02-18 21:28:06

python用beautifulsoup爬取網頁時出現亂碼的解決方法

python用beautifulsoup爬取網頁時出現亂碼的解決方法參考文章：（1）python用beautifulsoup爬取網頁時出現亂碼的解決方法（2）https://www.cnblogs.com/wswyy/p/11826

2021-02-15 21:19:00

網頁爬蟲的原理

原文地址： https://zhuanlan.zhihu.com/p/35324806 這篇文章的定位是，給有一些python基礎，但是對爬蟲一無所知的人寫的。文中只會涉及到爬蟲最核心的部分，完全避開莫名其妙的坑或概念，讓讀者覺得爬蟲是一件

2021-02-03 09:21:44

獨家 | LDA主題建模和pyLDAvis可視化

作者：Xuan Qi 翻譯：方星軒校對：歐陽錦本文約1700字，建議閱讀6分鐘本文的數據來自美國著名電視節目《老友記》。作者用python-Beautiful Soup抓取了224集中六個主要角色的全部劇本。角色有Ross Gel

2021-01-30 10:58:36

各種好看的cosplay小姐姐熱門圖片，統統爬取收藏

邊學習，邊創造是一件開心的事情，因爲你會清楚的認識到自己的狀態，以及那充滿內心的成就感，因此從寫爬蟲開始學習python是一個簡單粗暴的提升路線，不知不覺瞭解很多東西這裏以半次元爲例對爬蟲整體流程以及部分細節進行簡單彙總，如果有不正確的地

2021-01-30 10:20:18

Python教程；一起爬取娛樂圈的排行榜數據

想關注你的愛豆最近在娛樂圈發展的怎麼樣嗎？本文和你一起爬取娛樂圈的排行榜數據，來看看你的愛豆現在排名變化情況，有幾次登頂，幾次進了前十名呀。一、網站原始信息我們先來看下原始的網站頁面如果我們想一個一個複製這些數據，再進行分析，估計要

2021-01-30 10:20:16

24小時熱門文章

最新文章

最新評論文章