原创 python關於驗證碼

對於爬蟲而言驗證碼是一定要經過的坎,對於網站開發而言,驗證碼有着大量生成方法,網站開發者爲了應對爬蟲以及方便用戶閱讀,都會有自己的一套方法。 這裏介紹了python PIL生成驗證碼的一種通用方法。 import random f

原创 python一些常用代碼塊

centos下 python3無法print中文 UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-10: ordinal not i

原创 scrapy-splash學習

材料清單 docker scrapy 當我們經常遇到js加載的頁面,用scrapy來抓取其實挺麻煩的。Splash是做來加載渲染後的頁面,可以支持scrapy使用。由於Splash和Scrapy都支持異步處理,而Selenium

原创 pycharm解決關閉flask後依舊可以訪問服務

這種問題一般是退出flask服務時選擇了disconected而不是選擇terminate,dicconected是一種僞斷開,只是在pycharm這裏中止了,但是python解釋器依舊在運行這個服務。   默認選項是ask,但是一般情

原创 centos python學習筆記

centos下 python3無法print中文 UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-10: ordinal not i

原创 阿里系純滑塊驗證碼破解思路

本文旨在經驗交流,如若侵犯利益,請聯繫刪除。 阿里系滑塊驗證碼以nc_1開頭,通過調用XXXnc.js來實現。 給個例子,視覺中國的登陸頁面www.vcg.com/login 對於這樣的驗證碼,進行JS破解是比較難得,所以應該通過sele

原创 python 爬取天眼查,有效應對字體反爬

作爲一個新生代的爬蟲小菜雞,應該多學習一些爬蟲的奇技淫巧。 本篇博文旨在經驗交流,如果侵犯利益,請告知刪除。 作爲企業信息的彙總之地,天眼查和企查查一直被大量的爬蟲愛好者光顧,於是各種反爬措施層出不窮,極驗二代三代驗證碼,字體反爬,JS加

原创 python代理池搭建

熟悉爬蟲的,必定會熟悉各種反爬機制。今天就講一下自己如何建立ip代理池的。 一個合格的代理池必須擁有一個爬取代理IP的爬取器、一個驗證IP可否使用的校驗器、一個存儲IP的數據庫、調用這些的調度器以及可以供獲取IP的接口(這裏推薦flask

原创 關於scrapy的驗證碼處理

之前用scrapy爬取網頁時經常出現需要驗證碼,但是返回的是個response對象,不知道要如何進行破解。 以往都是selenium進行截圖驗證碼,模擬拖動,但是scrapy在yield請求後就直接走了,不知道如何下手。 百度了一圈,後面

原创 scrapy+selenium爬取淘寶商品信息

本文僅作經驗分享,不做商業用途,如涉及權利問題,請通知刪除。 scrapy+selenium爬取淘寶商品信息建立scrapy項目對目標網站進行分析selenium模擬登錄發起請求獲取數據保存數據 建立scrapy項目 scrapy

原创 Selenium EC 與 Wait

爬蟲經常出現錯誤,多半是沒等待控件加載出來。利用selenium雖然方便,但是還是需要控制一下等待時間。 Selenium有兩個常見的模塊來控制等待。 EC(expected_conditions) EC作爲預期條件,經常與util()和

原创 爬取Django 繞過csrf實現批量註冊

本文只是提供一些經驗,實際情況下因地制宜。 自己做了個Django項目,緩存用的是redis,部署到雲服務器上,想要通過爬蟲自動化註冊賬號。話不多說,一步步做。 首先要準備賬號數據,chorme利用ctrl+shift+i看一下注冊提

原创 Django 數據傳遞 個人彙總貼

後端到前端 普通的字典傳遞 exam_list = ExamList.objects.filter(id=exam_id) title = exam_list[0] return render(request, "exam/exam_q

原创 python bytes和str轉換

bytes 轉換爲 str str(b, encoding = "utf-8")   str(b, encoding = "gbk")   encoding中寫的是原來byte變量的編碼  什麼類型的編碼的字節就要轉換成什麼類型的編碼的字

原创 Centos7 登錄mysql 出現mysql.sock不存在

記一次糾錯大戰 本來今天開開心心地部署nginx和uwsgi到我的Django服務器,剛想給老師演示一遍我這項目如何酷炫時,一登陸就出現mysql連接不上了,把我急壞了,然後到服務器上看(用的時百度雲BCC),發現mysql連接時一直報: