原创 python關於驗證碼
對於爬蟲而言驗證碼是一定要經過的坎,對於網站開發而言,驗證碼有着大量生成方法,網站開發者爲了應對爬蟲以及方便用戶閱讀,都會有自己的一套方法。 這裏介紹了python PIL生成驗證碼的一種通用方法。 import random f
原创 python一些常用代碼塊
centos下 python3無法print中文 UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-10: ordinal not i
原创 scrapy-splash學習
材料清單 docker scrapy 當我們經常遇到js加載的頁面,用scrapy來抓取其實挺麻煩的。Splash是做來加載渲染後的頁面,可以支持scrapy使用。由於Splash和Scrapy都支持異步處理,而Selenium
原创 pycharm解決關閉flask後依舊可以訪問服務
這種問題一般是退出flask服務時選擇了disconected而不是選擇terminate,dicconected是一種僞斷開,只是在pycharm這裏中止了,但是python解釋器依舊在運行這個服務。 默認選項是ask,但是一般情
原创 centos python學習筆記
centos下 python3無法print中文 UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-10: ordinal not i
原创 阿里系純滑塊驗證碼破解思路
本文旨在經驗交流,如若侵犯利益,請聯繫刪除。 阿里系滑塊驗證碼以nc_1開頭,通過調用XXXnc.js來實現。 給個例子,視覺中國的登陸頁面www.vcg.com/login 對於這樣的驗證碼,進行JS破解是比較難得,所以應該通過sele
原创 python 爬取天眼查,有效應對字體反爬
作爲一個新生代的爬蟲小菜雞,應該多學習一些爬蟲的奇技淫巧。 本篇博文旨在經驗交流,如果侵犯利益,請告知刪除。 作爲企業信息的彙總之地,天眼查和企查查一直被大量的爬蟲愛好者光顧,於是各種反爬措施層出不窮,極驗二代三代驗證碼,字體反爬,JS加
原创 python代理池搭建
熟悉爬蟲的,必定會熟悉各種反爬機制。今天就講一下自己如何建立ip代理池的。 一個合格的代理池必須擁有一個爬取代理IP的爬取器、一個驗證IP可否使用的校驗器、一個存儲IP的數據庫、調用這些的調度器以及可以供獲取IP的接口(這裏推薦flask
原创 關於scrapy的驗證碼處理
之前用scrapy爬取網頁時經常出現需要驗證碼,但是返回的是個response對象,不知道要如何進行破解。 以往都是selenium進行截圖驗證碼,模擬拖動,但是scrapy在yield請求後就直接走了,不知道如何下手。 百度了一圈,後面
原创 scrapy+selenium爬取淘寶商品信息
本文僅作經驗分享,不做商業用途,如涉及權利問題,請通知刪除。 scrapy+selenium爬取淘寶商品信息建立scrapy項目對目標網站進行分析selenium模擬登錄發起請求獲取數據保存數據 建立scrapy項目 scrapy
原创 Selenium EC 與 Wait
爬蟲經常出現錯誤,多半是沒等待控件加載出來。利用selenium雖然方便,但是還是需要控制一下等待時間。 Selenium有兩個常見的模塊來控制等待。 EC(expected_conditions) EC作爲預期條件,經常與util()和
原创 爬取Django 繞過csrf實現批量註冊
本文只是提供一些經驗,實際情況下因地制宜。 自己做了個Django項目,緩存用的是redis,部署到雲服務器上,想要通過爬蟲自動化註冊賬號。話不多說,一步步做。 首先要準備賬號數據,chorme利用ctrl+shift+i看一下注冊提
原创 Django 數據傳遞 個人彙總貼
後端到前端 普通的字典傳遞 exam_list = ExamList.objects.filter(id=exam_id) title = exam_list[0] return render(request, "exam/exam_q
原创 python bytes和str轉換
bytes 轉換爲 str str(b, encoding = "utf-8") str(b, encoding = "gbk") encoding中寫的是原來byte變量的編碼 什麼類型的編碼的字節就要轉換成什麼類型的編碼的字
原创 Centos7 登錄mysql 出現mysql.sock不存在
記一次糾錯大戰 本來今天開開心心地部署nginx和uwsgi到我的Django服務器,剛想給老師演示一遍我這項目如何酷炫時,一登陸就出現mysql連接不上了,把我急壞了,然後到服務器上看(用的時百度雲BCC),發現mysql連接時一直報: