前言：
“分點學習爬蟲項目”，來源《從零開始學Python網絡爬蟲》由淺入深共有22個項目分知識點逐步掌握爬蟲技術
"自己寫的爬蟲項目"慢慢學習慢慢寫，就都擱這裏彙總
"前人彙總GitHub爬蟲項目"顧名思義是來至於前人總結好的一些github上的項目，目前這裏有31個項目

自話：“分點學習爬蟲項目”的源碼，我暫時還沒有整理出來，先列出項目清單，大概每個週末更新一下項目（emm，畫大餅，不會引起民憤吧），前面簡單的更新的快些，到後面的可能會慢一些，有時間就更一下，大家可以監督一哈我，別讓我偷懶，嘻嘻。——2019.12.3

分割線：期末複習周了，“分點學習爬蟲項目”第四節後的內容將不定期更新（看看什麼時候有空），過了這段時間再恢復更新。——2019.12.21

文章目錄

分點學習爬蟲項目

一、我的第一個爬蟲

1.爬取小豬短租網北京地區短租房信息（2019.12.7更）在控制檯顯示結果
2.爬取酷狗TOP500音樂信息（2019.12.7更）在控制檯顯示結果
二、正則表達式
3. 爬取《鬥破蒼穹》全文小說（2019.12.8更）存儲格式爲TXT文件
4. 爬取糗事百科笑話¹

三、lxml庫和Xpath語法

5. 爬取豆瓣網圖書TOP250的數據（2019.12.15更）存儲格式爲CSV文件
6. 爬取起點中文網小說信息（2019.12.15更）存儲格式爲Excel文件

四、使用API

7. 爬取PEXELS圖片²

8. 爬取糗事百科網的用戶地址³

五、數據庫存儲

9. 爬取豆瓣音樂TOP250的數據（2020.1.1更）存儲形式爲MongoDB
10. 爬取豆瓣電影TOP250的數據（2020.1.4更）存儲形式爲MySql

六、多進程爬蟲

11. 爬取簡書網熱評文章（2020.1.17更）存儲形式爲MongoDB
12. 爬取轉轉網二手市場商品信息（2020.1.18更）存儲形式爲MongoDB

七、異步加載

13. 爬取簡書用戶動態信息（2020.1.21更）存儲形式爲MongoDB
14. 爬取簡書網7日熱門信息⁴

八、表單交互與模擬登入

15. 爬取拉勾網招聘信息（2020.2.2更）存儲形式爲MongoDB
16. 爬取新浪微博好友圈信息

九、Selenium模擬瀏覽器

17. 爬取QQ空間好友說說
18. 爬取淘寶商品信息

十、Scrapy爬蟲框架

19. 爬取簡書網熱門專題信息
20. 爬取知乎網Python精華話題
21. 爬取簡書網專題收錄文章
22. 爬取簡書網推薦信息

自己寫的爬蟲項目

前人彙總GitHub爬蟲項目

WechatSogou [1]:微信公衆號爬蟲。基於搜狗微信搜索的微信公衆號爬蟲接口，可以擴展成基於搜狗搜索的爬蟲，返回結果是列表，每一項均是公衆號具體信息字典。

DouBanSpider [2]:豆瓣讀書爬蟲。可以爬下豆瓣讀書標籤下的所有圖書，按評分排名依次存儲，存儲到Excel中，可方便大家篩選蒐羅，比如篩選評價人數>1000的高分書籍；可依據不同的主題存儲到Excel不同的Sheet ，採用User Agent僞裝爲瀏覽器進行爬取，並加入隨機延時來更好的模仿瀏覽器行爲，避免爬蟲被封。

zhihu_spider [3]:知乎爬蟲。此項目的功能是爬取知乎用戶信息以及人際拓撲關係，爬蟲框架使用scrapy，數據存儲使用mongo

bilibili-user [4]:Bilibili用戶爬蟲。總數據數：20119918，抓取字段：用戶id，暱稱，性別，頭像，等級，經驗值，粉絲數，生日，地址，註冊時間，簽名，等級與經驗值等。抓取之後生成B站用戶數據報告。

SinaSpider [5]:新浪微博爬蟲。主要爬取新浪微博用戶的個人信息、微博信息、粉絲和關注。代碼獲取新浪微博Cookie進行登錄，可通過多賬號登錄來防止新浪的反扒。主要使用 scrapy 爬蟲框架。

distribute_crawler [6]:小說下載分佈式爬蟲。使用scrapy,Redis, MongoDB,graphite實現的一個分佈式網絡爬蟲,底層存儲mongodb集羣,分佈式使用redis實現,爬蟲狀態顯示使用graphite實現，主要針對一個小說站點。

CnkiSpider [7]:中國知網爬蟲。設置檢索條件後，執行src/CnkiSpider.py抓取數據，抓取數據存儲在/data目錄下，每個數據文件的第一行爲字段名稱。

LianJiaSpider [8]:鏈家網爬蟲。爬取北京地區鏈家歷年二手房成交記錄。涵蓋鏈家爬蟲一文的全部代碼，包括鏈家模擬登錄代碼。

scrapyjingdong [9]:京東爬蟲。基於scrapy的京東網站爬蟲，保存格式爲csv。

QQ-Groups-Spider [10]:QQ 羣爬蟲。批量抓取 QQ 羣信息，包括羣名稱、羣號、羣人數、羣主、羣簡介等內容，最終生成 XLS(X) / CSV 結果文件。

wooyunpublic [11]:烏雲爬蟲。烏雲公開漏洞、知識庫爬蟲和搜索。全部公開漏洞的列表和每個漏洞的文本內容存在mongodb中，大概約2G內容；如果整站爬全部文本和圖片作爲離線查詢，大概需要10G空間、2小時（10M電信帶寬）；爬取全部知識庫，總共約500M空間。漏洞搜索使用了Flask作爲web server，bootstrap作爲前端。

findtrip [12]:機票爬蟲（去哪兒和攜程網）。Findtrip是一個基於Scrapy的機票爬蟲，目前整合了國內兩大機票網站（去哪兒 + 攜程）。

163spider [13]:基於requests、MySQLdb、torndb的網易客戶端內容爬蟲

doubanspiders [14]:豆瓣電影、書籍、小組、相冊、東西等爬蟲集

QQSpider [15]:QQ空間爬蟲，包括日誌、說說、個人信息等，一天可抓取 400 萬條數據。

baidu-music-spider [16]:百度mp3全站爬蟲，使用redis支持斷點續傳。

tbcrawler [17]:淘寶和天貓的爬蟲,可以根據搜索關鍵詞,物品id來抓去頁面的信息，數據存儲在mongodb。

stockholm [18]:一個股票數據（滬深）爬蟲和選股策略測試框架。根據選定的日期範圍抓取所有滬深兩市股票的行情數據。支持使用表達式定義選股策略。支持多線程處理。保存數據到JSON文件、CSV文件。

BaiduyunSpider [19]:百度雲盤爬蟲。

Spider [20]:社交數據爬蟲。支持微博,知乎,豆瓣。

proxy pool [21]:python爬蟲代理IP池(proxy pool)。

music-163 [22]:爬取網易雲音樂所有歌曲的評論。

jandan_spider [23]:爬取煎蛋妹紙圖片。

CnblogsSpider [24]:cnblogs列表頁爬蟲。

spider_smooc [25]:爬取慕課網視頻。

CnkiSpider [26]:中國知網爬蟲。

knowsecSpider2 [27]:知道創宇爬蟲題目。

aiss-spider [28]:愛絲APP圖片爬蟲，以及免支付破解VIP看圖。

SinaSpider [29]:動態IP解決新浪的反爬蟲機制，快速抓取內容。

csdn-spider [30]:爬取CSDN上的博客文章。

ProxySpider [31]:爬取西刺上的代理IP，並驗證代理可用性

糗事百科服務器在升級當中，暫不做爬取練習-2019.12.8 ↩︎
原本的API接口失效了-2019.12.31 ↩︎
糗事百科服務器在升級當中，暫不做爬取練習-2019.12.31 ↩︎
網頁結構有變動，無“七日熱門”板塊 ↩︎

總數量超過五十個，史上最全的爬蟲項目集合

文章目錄

分點學習爬蟲項目

自己寫的爬蟲項目

前人彙總GitHub爬蟲項目

24-5-18 X

基於SSM框架的web入門項目(三)學習記錄

Pandas之unique和nunique傻傻分不清楚

筆趣閣爬蟲（2020重製版），貼心的操作，誰用誰知道

我安裝pyecharts時的曲曲折折

設置PyCharm背景圖片

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結