低不成高不就的現狀?小夥用Python爬取百萬招聘,找到滿意工作

個人經歷:低不成,高不就

依稀還記得15年剛出來工作那會,在第一個互聯網公司實習,在公司聽慣了身邊人說公司這不好,那不好,作爲新人的我深受影響,不知從何時開始就想快點結束實習期換一份更好的工作;

千盼萬盼,終於迎來第二年的畢業,畢業後我也選擇了大部分實習生的選擇,沒有再回到公司,在之後,懵懂的我終於迎來人生的第一次打擊,在之後的兩個月的時間,我開始在做比較,結果沒有找到一家比上家更好的工作,由於當初的不辭而別,我也感覺沒臉回到上家公司,終於到了身無分文的地步,而我也不得以選擇一家“差”的公司,想着做幾個月存點錢再去找一份更好的工作;

這樣的惡性循環在我身上循環了一年,“低不成,高不就”的現象也許不只是出現在我身上,下面教你如果找到一份自己相對滿意的工作!

file

正文:找一份自己滿意的工作

拿一個招聘網站用來分析:

1、分析網站結構,確定我們要抓取的數據內容

通過 Chrome 瀏覽器右鍵檢查查看 network 並對網站結構進行分析發現我們在 ajax 請求界面中,可以看到這些返回的數據正是網站頁面中Python崗位招聘的詳情信息。

file

之後我們在查看headers的時候發現該網站請求的方式是Post請求,也就是說在請求的過程中需要攜帶Form Data數據

file

在多次對網頁界面進行分析評測的時候,發現在點擊第二頁的時候Form Data的攜帶格式發生了變化。可以看到 pn=2 肯定是咱們的當前的頁數。

file

2、不管三七二十一 ,先請求拿到數據在說

file

在直接請求界面的時候我們發現網站有反爬機制,不讓我們請求《“msg”:“您操作太頻繁,請稍後再訪問”》,我們攜帶請求頭僞裝一下,不行

file

這裏我用了一種可以快速生成headers以及cookie的工具:

file

我懷疑該網站具有多重反爬策略,當我在次添加cookies試一下的時候;我們發現數據可以正常獲取了;難道就這麼簡單就解決拉勾網數據獲取的問題了嗎?然而機智的我察覺到事情並沒有想像的那麼簡單;

file

我的最終解決方案是共用 session,就是說我們在每次請求界面的時候先獲取session然後原地更新我們的session之後在進行數據的抓取,最後拿到想要的數據。

file

第二步:對數據進行分解

file

運行結果:

file

第三步:對解析數據進行存儲

這裏通過 excel 表格的形式進行存儲;

需要 pip install xlwt 安裝一下 xlwt 庫.

file

最終顯示數據內容

file

最後

如果需要源碼,可以看下圖

點擊瞭解更多,獲取更多Python爬蟲全棧學習資料

瞭解更多

file

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章