scrapy學習之路（八）網頁解析:BeautifulSoup

原創

2020-02-23 09:44

scrapy通過selenium獲取到網頁以後，爲了獲取數據，我們需要對網頁進行解析，BeautifulSoup是一種比較好用的頁面解析工具。

(一) 安裝beautifulsoup4

pip install beautifulsoup4

(二)在spider中解析網頁：

（1）引入模塊：

from bs4 import BeautifulSoup

（2）通過頁面數據構建BeautifulSoup對象

soup = BeautifulSoup(response.body.decode('utf-8'), 'html.parser')

（3）解析數據，常用的如下：

list = soup.find_all('li', 'list-item')

ali.select('.d-t-c>.media') #獲取tag

ali.select('div[class="font-15 m-t-5 clearfix"]')[0].text #獲取內容

都是通過css選擇器篩選數據，瞭解css的基本都能理解上面的含義了

（4）構建item：

爲了將解析的數據從spider自動傳遞到pipeline，進行持久化存儲等後續操作，需要將解析的數據轉化爲item,

創建item類（繼承自scrapy.Item），代碼如下：

import scrapy

class SpiderItem(scrapy.Item):

# define the fields for your item here like:

name = scrapy.Field(serializer=str)#serializer聲明序列化，有序列化要求的必須寫上，否則會報序列化異常

position = scrapy.Field(serializer=str)

date = scrapy.Field(serializer=str)

content = scrapy.Field(serializer=str)

pass

在spider中賦值返回即可，代碼如下：

def parse(self, response):

item = MaimaispiderItem()

item['name'] = ali.select('div[class="font-13 m-t-5 clearfix"]')[0].text

item['position'] = ali.select('div[class="font-14 m-t-5 clearfix"]')[0].text

item['date'] = ali.select('div[class="font-15 m-t-5 clearfix"]')[0].text

item['content'] = ali.select('div[class="font-16 m-t-5 clearfix"]')[0].text

yield item

如果設置了pipeline,則數據會自動發送到pipeline中。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

項目配置之道：優化Scrapy參數提升爬蟲效率

前言在當今信息時代，數據是無處不在且無比重要的資源。爲了獲取有效數據，網絡爬蟲成爲了一項至關重要的技術。Scrapy作爲Python中最強大的網絡爬蟲框架之一，提供了豐富的功能和靈活的操作，讓數據採集變得高效而簡單。本文將以爬取豆瓣網

2024-03-23 12:11:26

Haskell網絡爬蟲：視頻列表獲取案例分析

摘要隨着短視頻平臺的興起，如何高效地獲取視頻內容成爲了一個熱門話題。本文將通過構建一個Haskell網絡爬蟲來爬取抖音平臺的視頻列表，深入分析網絡爬蟲的設計和實現過程。我們將探討Haskell在網絡爬蟲開發中的優勢，以及如何利用Has

2024-05-30 00:08:28

Python網絡爬蟲的時候json=就是讓你少寫個json.dumps()

大家好，我是皮皮。一、前言前幾天在Python白銀交流羣【空翼】問了一個Python網絡爬蟲的問題，提問截圖如下：登錄請求地址是這個：二、實現過程這裏【甯同學】給了一個提示，如下所示：估計很多小夥伴和我一樣會有一個疑問吧，

2024-05-29 10:02:33

Buzz庫網絡爬蟲實例：快速爬取百度搜索實時熱點

前言隨着互聯網的發展，信息獲取已經成爲了人們日常生活和工作中的重要一環。而在信息獲取的過程中，網絡爬蟲作爲一種自動化的數據採集工具，爲我們提供了極大的便利。本文將介紹如何利用PHP編寫一個簡單而高效的網絡爬蟲，實現快速爬取百度搜索的實

2024-05-24 00:08:55

代理服務器調試技巧：優化Kotlin網絡爬蟲的數據抓取過程

在網絡爬蟲的開發過程中，經常會遇到需要使用代理服務器的情況。代理服務器不僅可以幫助隱藏真實IP地址，還可以繞過網站的訪問限制，提高數據抓取的成功率。然而，在實際應用中，使用代理服務器也會遇到一些問題，如連接超時、IP被封禁等。因此，本文將

2024-05-21 00:07:04

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

在這個數據驅動的時代，信息就是力量。而在這片信息的海洋中，爬蟲技術就像是一艘靈活的潛水艇，讓我們能夠深入海底，探尋那些隱藏的寶藏。今天，我將帶領大家一起踏上一場奇妙的探險之旅，我們將使用Python這把瑞士軍刀，搭配RoboBrowser

2024-05-18 00:07:59

網絡爬蟲安全：90後小夥，用軟件非法搬運他人原創視頻被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

突破目標網站的反爬蟲機制：Selenium策略分析

在當今信息爆炸的互聯網時代，獲取數據變得越來越重要，而網絡爬蟲成爲了一種常見的數據獲取工具。然而，隨着各大網站加強反爬蟲技術，爬蟲程序面臨着越來越多的挑戰。本文將以爬取百度搜索結果爲例，介紹如何使用Selenium結合一系列策略來突破目標

2024-05-16 00:10:51

Golang爬蟲代理接入的技術與實踐

引言隨着互聯網的迅猛發展，數據已經成爲現代社會的重要資源之一。而網絡爬蟲作爲一種數據採集工具，扮演着至關重要的角色。在Golang語言的生態系統中，開發者們可以藉助其強大的併發特性和豐富的標準庫，輕鬆構建高效穩健的網絡爬蟲。然而，面對

2024-04-26 23:26:42

利用HttpClient庫下載螞蜂窩圖片

前言網絡爬蟲技術作爲互聯網數據獲取的重要工具，在各行各業都有着廣泛的應用。而在本文中，我們將利用Java中的HttpClient庫，通過編寫一個簡單而有效的網絡爬蟲程序，實現下載螞蜂窩網站的圖片的功能。通過這個例子，我們不僅可以學習如

2024-04-23 23:24:51

五一假期暢遊指南：Python技術構建的熱門景點分析系統解讀

導言五一假期即將到來，作爲一名熱愛旅遊的技術達人，我總是希望能夠通過技術手段更好地規劃我的旅行路線。在這篇文章中，我將向大家介紹一款基於Python技術的熱門景點分析系統，幫助您在五一假期中游玩得更加盡興！ 1. 系統概述熱門景點

2024-04-16 23:25:46

使用urllib和BeautifulSoup解析網頁中的視頻鏈接

一、概述在當今數字化社會中，視頻內容已經成爲互聯網上最受歡迎的形式之一。而抖音作爲全球領先的短視頻平臺，每天都有數以億計的用戶在其中分享各種各樣的視頻內容。對於開發者來說，獲取抖音視頻鏈接並進行進一步的處理和分析是一項有趣且具有挑戰性

2024-04-15 23:27:55

利用Node.js實現拉勾數據爬取

引言拉勾網作爲中國領先的互聯網招聘平臺，彙集了豐富的職位信息，對於求職者和人力資源專業人士來說是一個寶貴的數據源。通過編寫網絡爬蟲程序，我們可以自動化地收集這些信息，爲求職決策和市場研究提供數據支持。Node.js以其非阻塞I/O和事

2024-04-01 23:25:54

從入門到精通：掌握Scrapy框架的關鍵技巧

在當今信息爆炸的時代，獲取並利用網絡數據成爲了許多行業的核心競爭力之一。而作爲一名數據分析師、網絡研究者或者是信息工作者，要想獲取網絡上的大量數據，離不開網絡爬蟲工具的幫助。而Scrapy框架作爲Python語言中最爲強大的網絡爬蟲框架之

2024-05-25 00:09:06

Scrapy爬蟲：利用代理服務器爬取熱門網站數據

在當今數字化時代，互聯網上充斥着大量寶貴的數據資源，而爬蟲技術作爲一種高效獲取網絡數據的方式，受到了廣泛的關注和應用。本文將介紹如何使用Scrapy爬蟲框架，結合代理服務器，實現對熱門網站數據的高效爬取，以抖音爲案例進行說明。 1. 簡

2024-05-15 00:08:57

24小時熱門文章

最新文章

最新評論文章