python之scrapy的使用和獲取標籤內部全部文本的四種方式

原創

一起学python吧

2020-02-24 05:51

在使用爬蟲爬取數據的時候，經常需要獲取標籤內的文本，下面向大家介紹四種獲取文本的方式（以小說吧中的一篇帖子爲例，鏈接爲：https://tieba.baidu.com/p/5806279867）：
第一步：打開終端，在指定文件夾下創建一個新的項目，並且按照提示輸入兩個命令

第一個命令進入tieba這個文件夾

第二個命令創建一個名字爲story的爬蟲文件（爬蟲的名字不能和工程名字一樣），鏈接爲tieba.baidu.com

創建成功的話，在指定目錄下會生成以下文件

spiders：所有創建的爬蟲文件會放在此文件夾下

__init__.py : 初始化文件

Items.py :存放數據模型

middlewares.py: 中間件，負責對內容進行處理

pipelines.py:通常用來控制執行的順序

setttings.py:設置項目的配置信息

因爲我們創建了一個名字爲story的爬蟲文件，所以spiders文件夾下有一個story的py文件

第二步：把代碼內容寫在爬蟲文件中

獲取每層的內容（四種方式獲取標籤內的文本）：

第一種方式：使用正則表達式獲取

在終端中輸入：

運行結果：

第二種方式：獲取外層標籤，遍歷內部所有的子標籤，獲取標籤文本。

運行結果：

第三種方式：獲取標籤以及子標籤的文本，遍歷所有的元素，獲得標籤文本

運行結果：

第四種方式：使用xpath('string(.)')這種方式來獲取所有文本並且拼接

運行結果：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

10分鐘搞定Mysql主從部署配置

流程 Master數據庫安裝 Slave數據庫安裝配置Master數據庫配置Slave數據庫網絡信息 Master數據庫IP：192.168.198.133 Slave數據庫IP：192.168.198.132 配置Maste

2024-05-17 14:31:12

無法AC，關於使用fgets碰到的問題——末尾多一個換行符

題目是輸入一串字符串，包含空格，裏面有多個單詞，將每個單詞翻轉輸出，並且單詞之間的空格要與原文一致。寫的時候沒有使用string的輸入，而是選擇了char數組的輸入。樣例測試hello world->olleh dlrow是沒有問題的，

2024-05-17 14:30:52

lightdb秒級增加列和刪除列（not null帶默認值）

　　對數據量過億的大表而言，dba最頭疼的是隨着業務變化增加帶默認值的字段，以及修改字段的數據類型，在實現不好的數據庫中，動不動執行半天，中途失敗的話，還會卡半天。這在lightdb中是不會發生的。如下所示： lightdb@oradb=

2024-05-17 14:28:42

lightdb mysql 8.0兼容之不可見主鍵

　　數據庫設計通常需要滿足一定的範式要求，其中主鍵更是最基本的要求。不過，數據庫管理系統卻允許我們創建沒有主鍵的表。這樣的表在數據庫中會帶來查詢性能低下、複製延遲甚至無法實現高可用配置等問題。　　爲此，lightdb在22.1版本引入了一

2024-05-17 14:28:42

lightdb數據庫超時相關控制參數

　　在業務開發中，通常因爲代碼不規範、中間件缺陷、DBA誤提交批量SQL等原因，會導致服務端連接一直存在、但是實際上並未在執行的情況，從而導致數據庫連接泄露。爲了防止這種異常情況積壓，lightdb中包含了多個參數用於控制超時相關的行爲：

2024-05-17 14:28:42

如何使用 JS 判斷用戶是否處於活躍狀態

有時候，我們需要在網頁判斷用戶是否處與非活躍狀態，如果用戶長時間沒有在頁面上進行任何操作，我們則判定該用戶是非活躍的。在 javascript 中我們可以通過監聽某些鼠標或鍵盤相關的事件來判定用戶是否在活躍中。案例演示在線演示 - 使

2024-05-17 14:26:51

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

在前端開發過程中，調試的時候，我門會使用 console.log 等方式查看數據。但對於圖片來說，僅靠展示的數據與結構，是無法想象出圖片最終呈現的樣子的。雖然我們可以把圖片數據通過 img 標籤展示到頁面上，或將圖片下載下來進行預覽。但這

2024-05-17 14:26:51

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

安裝負載均衡metalb 安裝metalb kubectl create namespace metallb-system 配置metalb #kubectl create secret generic -n metallb-system

2024-05-17 14:25:27

Flink的State

有狀態的計算是流式計算框架的一個重要功能，很多複雜的計算場景都需要記錄一下相關的狀態。Flink State一種爲了滿足算子計算時需要歷史數據需求的，使用 checkpoint 機制進行容錯，存儲在 state backend 的數

人不瘋狂枉一生

2024-05-17 14:23:00

ASP.NET Core Web中使用AutoMapper進行對象映射

前言在日常開發中，我們常常需要將一個對象映射到另一個對象，這個過程中可能需要編寫大量的重複性代碼，如果每次都手動編寫，不僅會影響開發效率，而且當項目越來越複雜、龐大的時候還容易出現錯誤。爲了解決這個問題，對象映射庫就隨之而出了，這些庫可以

2024-05-17 14:22:00

第四節：MySQL主從集羣搭建、擴容與數據遷移、半同步複製詳解

一. 二. 三. ! 作者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com

2024-05-17 14:21:40

RDLC降低使用內存

在Winform使用RDLC時，在批量打印情況下，內存隨着打印任務的數量逐漸增加。即便手動GC效果也不明顯。原因： localReport在創建時，每個實例都是一個應用程序域。租約的過期時間比較久，按照網上的資料，過期時間大約10分鐘左右

煙臺西炮臺

2024-05-17 14:21:20

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

1、Solon Cloud Event？是 Solon 分佈式事件總線的解決方案。也是 Solon “最終一致性”分佈式事務的解決方案之一 2、事務特性事務？就是要求 Event 有原子性，當多個 Event 發佈時，要麼全成功，要麼

2024-05-17 14:21:09

AI-FastGPT安裝

最近開始體驗FastGPT知識庫問答系統，參考官方文檔，在自己的阿里雲服務器使用Docker Compose快速完成了部署。環境說明：阿里雲ECS，2核8G，X86架構，CentOS 7.9操作系統。 Docker與Docker-Com

2024-05-17 14:14:58

matlab練習程序（線性常微分方程組矩陣解）

之前有通過ode和simulink解線性常微分方程組。除了上面兩種方法，線性常微分方程組還可以通過矩陣的方法求解。比如下面這個之前使用的方程組： x'' = x' - x + y' -z' y'' = y' - y - x' z'' =

2024-05-17 14:11:07

24小時熱門文章

最新文章

最新評論文章