低不成高不就的現狀？小夥用Python爬取百萬招聘，找到滿意工作

原創

逻辑-小雁子

2020-06-13 02:37

個人經歷：低不成，高不就

依稀還記得15年剛出來工作那會，在第一個互聯網公司實習，在公司聽慣了身邊人說公司這不好，那不好，作爲新人的我深受影響，不知從何時開始就想快點結束實習期換一份更好的工作；

千盼萬盼，終於迎來第二年的畢業，畢業後我也選擇了大部分實習生的選擇，沒有再回到公司，在之後，懵懂的我終於迎來人生的第一次打擊，在之後的兩個月的時間，我開始在做比較，結果沒有找到一家比上家更好的工作，由於當初的不辭而別，我也感覺沒臉回到上家公司，終於到了身無分文的地步，而我也不得以選擇一家“差”的公司，想着做幾個月存點錢再去找一份更好的工作；

這樣的惡性循環在我身上循環了一年，“低不成，高不就”的現象也許不只是出現在我身上，下面教你如果找到一份自己相對滿意的工作！

正文：找一份自己滿意的工作

拿一個招聘網站用來分析：

1、分析網站結構，確定我們要抓取的數據內容

通過 Chrome 瀏覽器右鍵檢查查看 network 並對網站結構進行分析發現我們在 ajax 請求界面中，可以看到這些返回的數據正是網站頁面中Python崗位招聘的詳情信息。

之後我們在查看headers的時候發現該網站請求的方式是Post請求，也就是說在請求的過程中需要攜帶Form Data數據

在多次對網頁界面進行分析評測的時候，發現在點擊第二頁的時候Form Data的攜帶格式發生了變化。可以看到 pn=2 肯定是咱們的當前的頁數。

2、不管三七二十一，先請求拿到數據在說

在直接請求界面的時候我們發現網站有反爬機制，不讓我們請求《“msg”:“您操作太頻繁,請稍後再訪問”》，我們攜帶請求頭僞裝一下，不行

這裏我用了一種可以快速生成headers以及cookie的工具：

我懷疑該網站具有多重反爬策略，當我在次添加cookies試一下的時候；我們發現數據可以正常獲取了；難道就這麼簡單就解決拉勾網數據獲取的問題了嗎？然而機智的我察覺到事情並沒有想像的那麼簡單；

我的最終解決方案是共用 session，就是說我們在每次請求界面的時候先獲取session然後原地更新我們的session之後在進行數據的抓取，最後拿到想要的數據。

第二步：對數據進行分解

運行結果：

第三步：對解析數據進行存儲

這裏通過 excel 表格的形式進行存儲；

需要 pip install xlwt 安裝一下 xlwt 庫.

最終顯示數據內容

最後

如果需要源碼，可以看下圖

點擊瞭解更多，獲取更多Python爬蟲全棧學習資料

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬取鬥魚彈幕

主要思路根據鬥魚後臺協議發送數據。相關文件私信回覆“鬥魚”即可獲取主要步驟有：（1）發送登錄請求，用於完成登錄授權；（2）獲取彈幕數據；（3）保持登錄狀態；（4）轉碼並將數據保存至Excel表中。爬取的數據有：

逻辑-小雁子

2020-07-08 08:34:47

Python爬取微信好友頭像並製作2020GIF動圖

開發工具 **Python版本：**3.6.4 相關模塊： PIL模塊； imageio模塊； itchat模塊；以及一些Python自帶的模塊。環境搭建安裝Python並添加到環境變量，pip安裝需要的相關模塊即可。主要

逻辑-小雁子

2020-07-08 08:34:46

Python製作自動回覆微信好友2020新年祝福

參考文檔（1）itchat文檔 https://itchat.readthedocs.io/zh/latest/ 相關文件關注轉發文章後關私信回覆關鍵詞：微信祝福主要思路 T_T似乎沒啥好說的~~~ 代碼也很簡單~~~ 簡單

逻辑-小雁子

2020-07-08 08:34:46

Python3爬取網易雲音樂評論製作詞雲

主要思路利用Python爬取網易雲音樂中相應歌曲的所有評論，並利用這些評論製作歌曲的專屬詞雲。具體過程見相關文件中的源代碼。開發工具 **Python版本：**3.5.4 相關模塊： requests模塊、jieba模塊、

逻辑-小雁子

2020-06-23 22:13:05

Python監控小姐姐/小哥哥微博，白嫖不瞭解一下？

開發工具 **Python版本：**3.6.4 相關模塊： DecryptLogin模塊；以及一些Python自帶的模塊。環境搭建安裝Python並添加到環境變量，pip安裝需要的相關模塊即可。注意，DecryptLog

逻辑-小雁子

2020-06-13 02:37:09

Python爬取新浪微博評論數據，你有空了解一下？

#開發工具 **Python版本：**3.6.4 相關模塊： argparse模塊； requests模塊； jieba模塊； wordcloud模塊；以及一些Python自帶的模塊。新浪微博相關文件關注並轉發後私信回覆

逻辑-小雁子

2020-06-13 02:37:09

Python爬蟲豆瓣國產電視劇

逻辑-小雁子

2020-05-25 16:45:00

Python爬取豆瓣讀書

逻辑-小雁子

2020-05-22 21:27:41

程序員用於機器學習數據科學的3個頂級 Python 庫

逻辑-小雁子

2020-02-24 04:51:44

Python爬取鬥魚彈幕

主要思路根據鬥魚後臺協議發送數據。相關文件私信回覆“鬥魚”即可獲取主要步驟有：（1）發送登錄請求，用於完成登錄授權；（2）獲取彈幕數據；（3）保持登錄狀態；（4）轉碼並將數據保存至Excel表中。爬取的數據有：

逻辑-小雁子

2020-07-08 08:34:47

Python爬取微信好友頭像並製作2020GIF動圖

開發工具 **Python版本：**3.6.4 相關模塊： PIL模塊； imageio模塊； itchat模塊；以及一些Python自帶的模塊。環境搭建安裝Python並添加到環境變量，pip安裝需要的相關模塊即可。主要

逻辑-小雁子

2020-07-08 08:34:46

Python製作自動回覆微信好友2020新年祝福

參考文檔（1）itchat文檔 https://itchat.readthedocs.io/zh/latest/ 相關文件關注轉發文章後關私信回覆關鍵詞：微信祝福主要思路 T_T似乎沒啥好說的~~~ 代碼也很簡單~~~ 簡單

逻辑-小雁子

2020-07-08 08:34:46

Python3爬取網易雲音樂評論製作詞雲

主要思路利用Python爬取網易雲音樂中相應歌曲的所有評論，並利用這些評論製作歌曲的專屬詞雲。具體過程見相關文件中的源代碼。開發工具 **Python版本：**3.5.4 相關模塊： requests模塊、jieba模塊、

逻辑-小雁子

2020-06-23 22:13:05

Python監控小姐姐/小哥哥微博，白嫖不瞭解一下？

開發工具 **Python版本：**3.6.4 相關模塊： DecryptLogin模塊；以及一些Python自帶的模塊。環境搭建安裝Python並添加到環境變量，pip安裝需要的相關模塊即可。注意，DecryptLog

逻辑-小雁子

2020-06-13 02:37:09

Python爬取新浪微博評論數據，你有空了解一下？

#開發工具 **Python版本：**3.6.4 相關模塊： argparse模塊； requests模塊； jieba模塊； wordcloud模塊；以及一些Python自帶的模塊。新浪微博相關文件關注並轉發後私信回覆

逻辑-小雁子

2020-06-13 02:37:09

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章