小福利,運用scrapy爬蟲框架高效爬取數據和存儲數據

大家好,我是天空之城,今天給大家帶來,運用scrapy爬蟲框架高效爬取數據和存儲數據。
Scrapy的用法
0.創建Scrapy項目
1定 義item(數據)
2創建 和編寫spiders文件
3修改settings.py文件
4運行Scrapy爬 蟲
scrapy框架運行原理
scrapy框架文件結構
寫代碼:
明確目標
分析過程
代碼實現(逐步)

以爬取豆瓣圖書爲演示https://book.douban.com/top250
豆瓣Top250圖書一共有10頁,每頁有25本書籍。我們的目標是:先只爬取前三頁書籍的信息,也就是爬取前75本書籍的信息(包含書名、出版信息和書籍評分)。
網址規律,
第2頁的網址:
https:/ /book.douban.com/ top250?start=25
第3頁的網址:
https:/ /book.douban.com/ top250?start=50

右擊檢查,你就會發現,其實每一頁的25本書籍信息都分別藏在了一個<table width="100%">標籤裏。不過這個標籤沒有class
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章