Selenium+BeautifulSoup+json獲取 Script 標籤內的 json 數據

原創

2020-06-09 06:01

Selenium爬蟲遇到數據是以 JSON 字符串的形式包裹在 Script 標籤中，
假設Script標籤下代碼如下：

<script id="DATA_INFO" type="application/json" >
{
    "user": {
        "isLogin": true,
        "userInfo": {
            "id": 123456,
            "nickname": "LiMing",
            "intro": "人生苦短，我用python"
        }
    }
}
</script>

此時drive.find_elements_by_xpath('//*[@id="DATA_INFO"] 只能定位到元素，但是無法通過.text方法，獲取Script標籤下的json數據

from bs4 import BeautifulSoup as bs
import json as js
#selenium獲取當前頁面源碼
html = drive.page_source
#BeautifulSoup轉換頁面源碼
bs=BeautifulSoup(html,'lxml')
#獲取Script標籤下的完整json數據，並通過json加載成字典格式
js_test=js.loads(bs.find("script",{"id":"DATA_INFO"}).get_text())
#獲取Script標籤下的nickname 值
js_test001=js.loads(bs.find("script",{"id":"DATA_INFO"}).get_text()).get("user").get("userInfo").get("nickname")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python網絡爬蟲的時候json=就是讓你少寫個json.dumps()

大家好，我是皮皮。一、前言前幾天在Python白銀交流羣【空翼】問了一個Python網絡爬蟲的問題，提問截圖如下：登錄請求地址是這個：二、實現過程這裏【甯同學】給了一個提示，如下所示：估計很多小夥伴和我一樣會有一個疑問吧，

2024-05-29 10:02:33

com.fasterxml.jackson.databind.JsonMappingException: Invalid UTF-8 start byte 0xb1

在windows環境，springboot 處理提交的json數據報錯“com.fasterxml.jackson.databind.JsonMappingException: Invalid UTF-8 start byte 0xb1”。

2024-05-30 22:15:03

DataCube 漏洞小結

在這裏分享一下通過拖取 DataCube 代碼審計後發現的一些漏洞，包括前臺的文件上傳，信息泄露出賬號密碼，後臺的文件上傳。當然還有部分 SQL 注入漏洞，因爲 DataCube 採用的是 SQLite 的數據庫，所以SQL 注入相對來說顯

2024-05-30 11:16:40

如何使用前端表格控件實現多數據源整合？

前言作爲表格產品的典型應用場景之一，幾乎所有的行業都會存在類 Excel 報表開發這樣的應用場景，而在這些應用場景中，經常會遇見下面的這些痛點：報表數據往往來自多個不同的數據源，需要報表系統能夠同時連接多個數據源，並融合不同的數據格式

2024-05-29 10:45:31

掌握這些代碼安全檢視方法，提升你的代碼質量

本文分享自華爲雲社區《代碼的安全檢視》，作者：Uncle_Tom。 1. 熵的故事熵的概念最早起源於物理學，用於度量一個熱力學系統的無序程度。熱力學第二定律，又稱“熵增定律”，表明了在自然過程中，一個孤立的系統總是從最初的集中、有序的排

2024-05-28 10:58:04

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

DevExtreme擁有高性能的HTML5 / JavaScript小部件集合*使您可以利用現代Web開發堆棧*包括React*Angular*ASP.NET Core*jQuery*Knockout等*構建交互式的Web應用程序。從Ang

2024-05-31 12:32:20

網頁爬蟲開發：使用Scala和PhantomJS訪問知乎

引言隨着大數據時代的到來，網頁爬蟲作爲一種高效的數據收集工具，被廣泛應用於互聯網數據抓取和信息抽取。而知乎是一個知識分享平臺，擁有大量的用戶生成內容。通過爬蟲獲取知乎數據，企業和研究人員可以進行深入的數據分析和市場研究，瞭解用戶的需求

2024-05-31 00:11:23

「盤點」JetBrains IDEs v2024.1新功能一覽，更智能的開發體驗！

JetBrains IDEs日前正式發佈了v2024.1版本，此版本中最大的亮點就是帶來了AI賦能的全行代碼補全，同時在最新的IDEs中重做了終端、擁有更強大的代碼編輯和導航功能、更智能的代碼分析和提示、更優化的性能、更豐富的插件和集成等。

2024-05-29 12:18:44

Objective-C爬蟲：實現動態網頁內容的抓取

在當今的互聯網時代，數據的獲取和分析變得日益重要。無論是進行市場研究、用戶行爲分析還是產品開發，獲取大量數據都是不可或缺的一環。然而，很多有價值的信息都隱藏在動態加載的網頁中，這些網頁通過JavaScript動態生成內容，傳統的爬蟲技術

2024-05-29 00:07:51

重磅推出：Milvus Lite 正式上線，幾秒內即可輕鬆搭建 GenAI 應用

和超薄筆記本一樣輕便、強大的 Milvus Lite 正式上線！ Milvus Lite（https://milvus.io/docs/milvus_lite.md）是一個輕量級向量數據庫，支持本地運行，可用於搭建 Python 應用，由

2024-06-02 02:22:45

peewee的動態Model

有一個客戶需要同一個Model，可以創建不同的數據庫的表單（自定表單名稱）。按官方文檔，自定義table_name的方法如下： from peewee import * contacts_db = SqliteDatabase('con

2024-05-31 21:48:26

一站式鏈路追蹤：阿里雲的端到端解決方案

作者：涯海炎炎夏日，當你打開外賣 APP 購買奶茶卻發現下單失敗；五一佳節，當你自駕遊途中發現導航響應緩慢，頻繁錯過路口；深更半夜，當你輔導孩子功課，卻發現 GPT 應用遲遲無法應答。不知你有沒有想過，這些程序運行的背後到底是怎樣的世界，

2024-05-31 21:13:44

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

大家好，我是皮皮。一、前言前幾天在Python最強王者交流羣【WYM】問了一個Pandas處理的問題，提問截圖如下：原始數據： temp = dict() temp[64001] = {64002: 1.0, 64003: 1.0,

2024-05-30 10:02:40

[oeasy]python019_ 如何在github倉庫中進入目錄_找到程序代碼_找到代碼

繼續運行 🥋 回憶上次內容上上次真寫了萬行代碼這萬行代碼都是寫在明面上的這次使用git命令下載了 github上面的倉庫

2024-05-30 00:35:24

記錄一次cnvd事件型證書漏洞挖掘

事件起因是因爲要搞畢設了，在爲這個苦惱，突然負責畢設的老師說得到cnvd下發的證書結合你的漏洞挖掘的過程是可以當成畢設的，當時又學習了一段時間的web滲透方面的知識，於是踏上了廢寢忘食的cnvd證書漏洞挖掘的日子。前言：聽羣友們說，一般可

2024-05-28 11:16:19

24小時熱門文章

最新文章

最新評論文章