python之scrapy的使用和獲取標籤內部全部文本的四種方式

在使用爬蟲爬取數據的時候,經常需要獲取標籤內的文本,下面向大家介紹四種獲取文本的方式(以小說吧中的一篇帖子爲例,鏈接爲:https://tieba.baidu.com/p/5806279867):
第一步:打開終端,在指定文件夾下創建一個新的項目,並且按照提示輸入兩個命令

              第一個命令進入tieba這個文件夾

              第二個命令創建一個名字爲story的爬蟲文件(爬蟲的名字不能和工程名字一樣),鏈接爲tieba.baidu.com

創建成功的話,在指定目錄下會生成以下文件

spiders:所有創建的爬蟲文件會放在此文件夾下

__init__.py : 初始化文件

Items.py :存放數據模型

middlewares.py: 中間件,負責對內容進行處理

pipelines.py:通常用來控制執行的順序

setttings.py:設置項目的配置信息

因爲我們創建了一個名字爲story的爬蟲文件,所以spiders文件夾下有一個story的py文件

第二步:把代碼內容寫在爬蟲文件中

獲取每層的內容(四種方式獲取標籤內的文本):

第一種方式:使用正則表達式獲取

在終端中輸入:

 運行結果:

第二種方式:獲取外層標籤,遍歷內部所有的子標籤,獲取標籤文本。

運行結果:

第三種方式:獲取標籤以及子標籤的文本,遍歷所有的元素,獲得標籤文本

運行結果:

第四種方式:使用xpath('string(.)')這種方式來獲取所有文本並且拼接

運行結果:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章