百萬裁判文書爬取（持續更新中）：Error:11004、狀態碼200但是返回None——自己坑自己的步驟

一、背景：
裁判文書比較全的網站大體上有中國裁判文書網、無訟網、聚法案例網、法律家
中國裁判文書網：http://wenshu.court.gov.cn/
無訟網：https://www.itslaw.com/home
聚法案例：https://www.jufaanli.com/
法律家：http://www.fae.cn/
在這些網站中，中國裁判文書網的反爬措施過於高端（反正我是搞不定）、無訟網與聚法案例有登陸限制（沒有那麼多賬號），只有法律家是靜態網頁，比較好爬取。於是，爬取的目標網站就是法律家。
法律家裁判文書的爬取過程中，由於具體網頁即裁判文書正文頁訪問存在訪問次數限制，而非具體網頁即裁判文書目錄頁的訪問限制更低一些。

二、思路：
此處的爬取思路就是利用這兩者的限制程度的不同分階段進行，防止互相錯誤的干擾，先爬取url，然後爬取具體正文。（後來發現其實不用這麼費勁，因爲url的格式相同，完全可以自行構造一個一個的試）

在第一步就打轉了半個月（主要是由於一些小問題、和比較窮的一個一個註冊代理然後試用）
這裏面的許多小問題在之前的文章中有所體現，嘗試過許多方法，主要是：error10060,許多方法都是所謂的connection：close ;或者retry，但是其實不是的，而是代理的問題，關不關閉對這個爬蟲沒有什麼問題。最後都是代理解決；
多線程或者多進程問題：開一兩個線程速度太慢，爬了一天一夜才20000多的url,總共100萬url就會爬死去，於是開多線程，一次開了40個線程，想着4個小時結束戰鬥；但是在20000次訪問下沒有問題的網站現在出現了問題，不是代理失效而是直接維護網站，對此我毫無辦法。
代理問題：只想白嫖用免費的代理池，一個一個找代理池（github上的基本都找過了，有的我運行不起來特麻煩），找到比較好的崔慶才大神的代理池和jhao的代理池，但是代理錯誤太多，可用率太低；
然後一個一個代理軟件註冊試用，結果手機號不夠用，於是試圖使用免費手機號，但是無法註冊。

最後，發現其實url可以構造出來，怪我沒有細看！！！！！

仔細看url，發現其中
http://www.fae.cn//cp/detail…html都是一樣的，只有數字不一樣，因而可以對數字進行構造，對不對沒有關係，一個一個試過去，保障可以爬全。