原创 【Python爬蟲歷程】簡單爬蟲實戰練習1

今天來爬取拉鉤網站來做實戰練習 如果按照之前的直接使用的urlopen直接來爬取數據,可能會被網站的反爬蟲機制給識別,如下代碼 from urllib import request resp=request.urlopen('htt

原创 【冷技術】電腦用起來卡了該怎麼辦???

關於電腦運行慢的解決辦法,後續再更新,大綱 1.定期清理C盤以及桌面文件,軟件安裝路徑最好不要選C盤。 C盤是我們的系統盤,如果C盤放了東西太多,導致開機很慢,系統運行就會變的很慢,而桌面屬於系統盤,很多人爲了方便喜歡把東西放在桌面,這樣

原创 【圖像處理基礎】RGB與YUV互轉之間的一些問題

好久沒有寫博客,都開始有點生疏了 前幾天做了有關RGB於YUV之間互轉的研究,先不用管RGB和YUV的格式什麼,這裏只講轉換 1.浮點運算:直接根據變量取值做算術運算 注意:關於下面的兩個公式,我在網上發現了很多這種公式,但是權重都有點不

原创 【冷技術】閒魚(某裏二手轉賣平臺)如何提高曝光率。

第一感覺就是在CSDN論壇發這個是不是有點亂入了,但是想想還是有點用的喲 作爲一個程序員難道沒有二手物品要處理的嗎?二手電腦應該有的吧,扔了怪可惜的轉手還能賺幾包煙錢不是 今天我就來講講該怎麼去提高閒魚上掛售的商品的曝光,讓更多的人可以看

原创 【解決方案】Windows已經關閉睡眠了可還是會自己隔幾分鐘不動黑屏

最近不知道是更新了系統還是windows部分功能更新,總是會出現這樣的一種情況:放下電腦去 上個廁所結果回來 自己關機了,如果是 玩手機幾分鐘電腦會突然自動鎖定,簡直頭疼啊   然後找了度娘找了一些解決辦法, 可能跟大家找的差不多,都是下

原创 【Python爬蟲歷程】URL詳解

如果想要爬蟲,首先就得了解URL URL是`Uniform Resource Locator`的簡寫,統一資源定位符。 一個URL由以下幾部分組成: scheme://host:port/path/?query-string=xxx#an

原创 【Python爬蟲歷程】ProxyHandler實現代理IP以及一些問題

首先說一下爲什麼要使用ProxyHandler處理器來設置代理,還是爲了避免反爬蟲機制 識別爬蟲程序來不提供數據。 很多網站會檢測 某一段時間某個IP的訪問次數(通過流量統計,系統日誌等),如果訪問次數 多的不像正常人去訪問,就會判別爲爬

原创 【Python爬蟲歷程】登錄回去cookie並且進行帶有cookie的請求

還是上節說的人人網,需要登錄之後才能訪問某些主頁,即headers中必須帶有cookie參數才能進行訪問   1.登錄獲取cookie 代碼及步驟註釋如下 #1.登錄去獲取cookie #1.創建一個CookieJar的對象來保存coo

原创 【圖像處理基礎】BMP格式圖片的解析

最近一直在用bmp格式的圖片進行圖像算法的學習,對bmp來做一個整理,以備後面使用。 BMP文件格式,又稱爲Bitmap(位圖)或是DIB(Device-Independent Device,設備無關位圖),是Windows系統中廣泛使用

原创 【Python爬蟲歷程】urllib庫之urlretrieve函數詳解

urlretrieve函數: urlretrieve() 方法直接將遠程數據下載到本地。 這個函數可以方便的將網頁上的一個文件保存到本地。文件類型可以是網頁的html文件、圖片、視頻等媒體文件。 函數原型:urlretrieve(url,

原创 【Python爬蟲歷程】使用Cookie來模擬登陸

前面講了cookie的概念,現在來實戰操作一下:直接訪問人人網代碼女神的主頁   1.如果不使用cookie直接來訪問請求: 在 網頁直接訪問女神主頁直接會彈到登錄頁面。 女神主頁URL:http://www.renren.com/256

原创 【Python爬蟲歷程】XPATH的介紹以及XPATH插件的安裝

一、XPATH是什麼?幹什麼用的? xpath(XML Path Language)是一門在XML和HTML文檔中查找信息的語言,可用來在XML和HTML文檔中對元素和屬性進行遍歷,用來確定XML文檔中某部分位置的語言。 舉個栗子 比如網

原创 【Python爬蟲歷程】HTTP協議詳解

什麼是http和https協議: http協議:超文本傳輸協議,全稱是HyperText Transfer Protocol,是一種發佈和接收HTML頁面的方法。服務器端口號是80端口。 http是一個簡單的請求-響應協議,它通常運行在T

原创 【Python爬蟲歷程】urllib庫詳解以及urlopen函數

urllib庫 urllib庫是Python中一個最基本的網絡請求庫。可以模擬瀏覽器的行爲,向指定的服務器發送一個請求,並可以保存服務器返 回的數據。urllib庫是python內置的一個http請求庫,不需要額外的安裝。只需要關注請求的

原创 【Python爬蟲歷程】保存cookie以及加載cookie

1.保存cookie到本地: 保存cookie到本地,可以使用cookiejar的save方法,並且需要指定一個文件名: from urllib import request,parse from http.cookiejar impo