百萬裁判文書爬取(持續更新中):Error:11004、狀態碼200但是返回None——自己坑自己的步驟

一、背景:
裁判文書比較全的網站大體上有中國裁判文書網、無訟網、聚法案例網、法律家
中國裁判文書網:http://wenshu.court.gov.cn/
無訟網:https://www.itslaw.com/home
聚法案例:https://www.jufaanli.com/
法律家:http://www.fae.cn/
在這些網站中,中國裁判文書網的反爬措施過於高端(反正我是搞不定)、無訟網與聚法案例有登陸限制(沒有那麼多賬號),只有法律家是靜態網頁,比較好爬取。於是,爬取的目標網站就是法律家。
法律家裁判文書的爬取過程中,由於具體網頁即裁判文書正文頁訪問存在訪問次數限制,而非具體網頁即裁判文書目錄頁的訪問限制更低一些。
在這裏插入圖片描述
在這裏插入圖片描述

二、思路:
此處的爬取思路就是利用這兩者的限制程度的不同分階段進行,防止互相錯誤的干擾,先爬取url,然後爬取具體正文。(後來發現其實不用這麼費勁,因爲url的格式相同,完全可以自行構造一個一個的試)
在這裏插入圖片描述
在第一步就打轉了半個月(主要是由於一些小問題、和比較窮的一個一個註冊代理然後試用)
這裏面的許多小問題在之前的文章中有所體現,嘗試過許多方法,主要是:error10060,許多方法都是所謂的connection:close ;或者retry,但是其實不是的,而是代理的問題,關不關閉對這個爬蟲沒有什麼問題。最後都是代理解決;
多線程或者多進程問題:開一兩個線程速度太慢,爬了一天一夜才20000多的url,總共100萬url就會爬死去,於是開多線程,一次開了40個線程,想着4個小時結束戰鬥;但是在20000次訪問下沒有問題的網站現在出現了問題,不是代理失效而是直接維護網站,對此我毫無辦法。
代理問題:只想白嫖用免費的代理池,一個一個找代理池(github上的基本都找過了,有的我運行不起來特麻煩),找到比較好的崔慶才大神的代理池和jhao的代理池,但是代理錯誤太多,可用率太低;
然後一個一個代理軟件註冊試用,結果手機號不夠用,於是試圖使用免費手機號,但是無法註冊。
在這裏插入圖片描述
最後,發現其實url可以構造出來,怪我沒有細看!!!!!
在這裏插入圖片描述
仔細看url,發現其中
http://www.fae.cn//cp/detail…html都是一樣的,只有數字不一樣,因而可以對數字進行構造,對不對沒有關係,一個一個試過去,保障可以爬全。

第二步:進行具體正文的提取,此時不止出現前面的代理問題:Error:10060,還時長出現Error:11004,和返回None

簡直一臉懵逼,他媽的又全是英文,還不僅python錯誤,連window的各種錯誤都出來了!!!!!!!!!!!!!!!!!!!!


在這裏插入圖片描述

各種查找都沒有找到解決方法!!!

各種嘗試中發現當我一個一個輸入url時,成功了!!!!
但是進行遍歷提取時卻是狀態碼200 和返回None!!!

難道要一個一個的自行傳遞url,一遍一遍的運行,絕對不可能!!!

真香!!一個一個的傳遞url,最終到第3個,實在受不了,於是開始再次檢查。
多方查找,既然狀態碼200正常,那麼就只能是後面的內容有問題了,結果沒有發現。

沒有辦法的我就只能向前找,結果錯誤竟然在前面,200的狀態碼,錯誤竟然在前面!!!

奇怪的問題來了:
在這裏插入圖片描述
在這裏插入圖片描述
兩個url進行判斷爲不相等,一開始還以爲是數據結構不一致,結果加了str()沒有用,加上‘’也沒有用。
最後查看txt文檔時終於想起來,原來是在寫入txt時爲了好看,進行了換行,因而提取的url中也會存在換行符!!!

繼續爬取中!!!!!!!!!!!
後續會再次更新!!!!!!!!!
希望大家不要爬法律家,等我爬完先,萬一他換成動態網頁我就涼了!!!!!!!!!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章