還在擔心沒工作崗位麼,爬取271W條數據爲你做精準分析

前言

市場需求量過大:
在這裏插入圖片描述
如何超越別人?
在這裏插入圖片描述

招聘的也不少,但是符合自己的少之又少
在這裏插入圖片描述

說明:
是以大數據、深度學習爲基礎的服務應用。

依託大數據、深度學習建立一套完整的體系。根據合法的數據進行數據的實時分析,從而爲用戶提供決策服務。本平臺分爲移動端和PC端,移動端更方便的爲用戶提供服務。

本服務可提供:多維數據分析、數據預測、數據對比等功能。把最新的、最符合用戶的數據推送給用戶;海量的IT行業數據,智能的分類,詳細的招聘信息,優越的體驗,幫助應聘人員有效的找到更合適的崗位。

一、數據材料準備

有很詳細的資料
在這裏插入圖片描述

(一)爬取的數據

爬取了將近5個G的數據

在這裏插入圖片描述

經過數據清洗:
在這裏插入圖片描述

在數據清洗階段,把重複、雜亂的數據給去除掉等

合併到數據庫中:

在這裏插入圖片描述

(二)SpringBoot項目

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

這些數據不方便公開,如果需要,可以私聊我,我可以提供給大家學習

二、項目演示

在這裏插入圖片描述

在這裏插入圖片描述

(一)項目背景

在這裏插入圖片描述

備註:

智能招聘數據分析平臺能夠進行在線行業查詢,分析,預測等功能。

如行業概況可以對整個IT行業的各個職業進行直觀的數據展示,不在侷限去文字的形式進行展示數據,對用戶更有效的分析數據庫,直觀的看數據。數據預測功能可以對未來的行業狀況進行預測、推測等功能,幫助行業內的人進行分析、預測當前或者未來的行業情況,更有利於以後的就業等。多功能數據分析平臺爲用戶提供了多條件的查詢,更隨心所欲的查詢自己想要查詢的招聘信息,查詢到後還可以進行報名應聘。可以針對多個應聘信息進行對比,相中哪個就去哪個。

智能招聘數據分析平臺特別對國內IT行業設計,其完善的功能、簡便的操作、靈活的部署以及衆多獨到的設計可以滿足各類IT行業的不同需求,爲用戶提供完善的個性化的方案。

智能招聘數據分析平臺在開發時主要是注重了:多維數據分析、數據預測、數據對比等功能。思考把握最新的、最符合用戶的數據推送給用戶;海量的IT行業數據,智能的分類,詳細的招聘信息,優越的體驗,幫助應聘人員有效的找到更合適的崗位。

(二)系統概述

在這裏插入圖片描述

(三)系統設計

在這裏插入圖片描述

(四)技術亮點

1、數據清洗

在這裏插入圖片描述
在這裏插入圖片描述

思想:因爲我有公司名稱、省份或市、區或縣三個字段的數據。直接由公司名稱獲取的經緯度相對來說比較準確。從而引入這段代碼的核心思想:先常識使用公司名稱獲取經緯度,如果不成功就省份或市+區或縣+公司名稱獲取經緯度,如果還不成功就直接獲取省份或市+區或縣,如果還不成功就沒辦法了。成功不成功我是用異常捕捉進行判斷的。因爲數組會越界。

————————————————
版權聲明:本文爲CSDN博主「TrueDei」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_17623363/article/details/100531588

2、數據庫設計

在這裏插入圖片描述

3、實時數據推送技術

在這裏插入圖片描述

Python+java+websocket+SpringMVC實時監控數據庫中的表

4、數據預測算法

在這裏插入圖片描述

5、協同過濾算法

在這裏插入圖片描述

6、多維度分析

在這裏插入圖片描述

7、豐富的圖表

在這裏插入圖片描述

8、GIS可視化

在這裏插入圖片描述

9、多維度數據對比

在這裏插入圖片描述

10、手機App端(推薦職位)

在這裏插入圖片描述

動圖演示:
在這裏插入圖片描述

三、結果分析

在這裏插入圖片描述

(一)分析背景與分析目的

隨着科技的迅速發展,計算機的普及及對人類生活的滲透,越來越多的高校 開設“計算機科學技術”專業及其他相關專業,使其成爲了全國熱門專業之一,同時伴隨着大量創新的計算機職業崗位的出現。崗位的出現必然對人才提出了充分的需求。

但是,就目前而言,計算機專業就業整體下滑。當前社會就業競爭激烈,IT行業雖然發展速度快、人才缺口逐漸增大,但是很多IT行業求職者求職目標不明確、不瞭解就業行情,大學畢業生的就業壓力更是空前擴大,面對一個自己心儀的公司,可能要和很多人競爭一個崗位。對於有些專業技能硬和綜合素質高的應聘者,由於不瞭解就業行情以及企業招聘需求、缺乏應聘經驗和策略,屢次與自己理想的企業擦肩而過,而企業也不易招聘到所需的可靠型人才。

針對這一日益突出的就業問題,我們想到應用當今熱門的大數據分析與應用技術,對計算機行業招聘信息做一些比較詳細的分析。“大數據”在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,近年來互聯網和信息行業的發展而引起人們關注。隨着計算機和信息技術的迅猛發展和普及應用,行業應用系統的規模迅速擴大,行業應用所產生的數據呈爆炸性增長。動輒達到數百TB甚至數十至數百PB規模的行業,企業大數據已遠遠超出了現有傳統的計算技術和信息系統的處理能力。因此,尋求有效的大數據處理技術、方法和手段已經成爲現實世界的迫切需求。人們將越來越多的意識到數據對企業的重要性。大數據時代對人類的數據駕馭能力提出了新的挑戰,也爲人們獲得更爲深刻、全面的洞察能力提供了前所未有的空間與潛力。

我們這一項目研究能夠幫助應聘者以及即將步入社會的大學生大體瞭解策略和方法,在求職時有更清晰、明確的目的性和針對性。我們通過爬取各企業招聘信息,立足於幫助應聘者們明確企業需要什麼樣的技術型人才、各種職位的薪資水平以及熱門程度、競爭力大小等等,對有關IT行業最新的的招聘信息進行統計和分析,並以網頁和微信小程序等形式可視化呈現出來,力求幫助求職者更多地瞭解企業招聘的動向、職場信息的變化、當今社會最緊缺、最熱門的技術等等。我們希望通過我們的數據分析,可以幫助學生或者準備躋身於IT行業的學習者們明確學習動向、確立更清晰的學習目標和努力方向;幫助求職者們在職場清晰完美的展現風采,增加就業競爭力;幫助企業招聘者瞭解國內各知名企業招聘的大體趨勢,以便做好招聘方向的調整。

(二)分析思路

在進行數據分析之前,我們團隊已經對51Job人才招聘網等國內各招聘網站進行了招聘信息的爬取,我們主要利用Python爬蟲技術獲取到了網站上各計算機行業相關的不同地區的詳細招聘信息,我們獲取的信息屬性主要包括信息來源、發佈時間、招聘崗位名稱、工作所在的省市、地區、對求職者工作經驗的要求、學歷要求、崗位職責要求、其他要求、員工福利、員工上限、員工下限、員工均值、招聘人數、工作所屬公司、公司主要經營類別、公司性質、公司介紹、薪資區間、薪資上限、薪資下限、薪資均值,總計上百萬條數據。

隨後,我們又使用Kettle對這些數據進行了數據清洗。這些具有規模性、真實性、時效性、結構性的數據爲我們團隊的數據分析奠定了良好的基礎。

我們團隊人員通過共同協商,最終決定先從各省市職位需求量及平均薪資水平、招聘信息中出現的熱門技術關鍵詞和福利關鍵詞、編程語言熱度等方面進行數據分析,然後再進行較爲深度的時間序列預測、協同過濾推薦等算法分析。分析的工具主要選用Python3,因爲Python中含有大量如同Pandas、Numpy、Matplotlib等第三方模塊,非常方便數據的歸類分析處理以及可視化展現。爲了使數據分析的結果以更直觀的形式展現,我們又使用了Tableau和java。

最終我們選擇了通過網頁前端以及手機客戶端用戶App兩種軟件形式比較完美地將數據展示出來。我們擬定的數據分析主要內容層次結構如下圖所示:

在這裏插入圖片描述

圖1:數據分析層次結構圖

(三)分析內容

1、我們首先從整體分析,從全國各地區計算機相關職位需求量的分佈情況入手進行分析,主要分爲三個步驟,層層遞進。

1)第一步,我們首先做了對各個城市職位需求量的統計,得到了存放相關數據的表格,並選擇了職位需求量排名最多的前十名城市通過matplotlib進行展示,如下圖所示:
在這裏插入圖片描述

圖2:排名前十城市的職位需求量

2)那麼各個地區都需要招聘什麼崗位呢?於是我們將各地區的招聘信息按照職位不同進行分類,統計各地區不同職位的招聘需求量,側面反映出就職崗位的熱度。圖3所示以廣州市爲例,最熱門的職位招聘需求量統計。由於這條分析內容較爲複雜,爲了更有層次感地完成這項分析任務,我們創建了數據庫,並在自己開發的網站上利用SpringBoot、Mybatis連接高德地圖API進行經緯度匹配,利用多維度GIS方式展示,效果圖如圖4所示:
在這裏插入圖片描述

圖3:各地區不同職位的招聘需求量
圖4:多維度GIS展示最熱門的職位招聘需求量

3)每個崗位的薪資水平又如何呢?這些職位的最高薪資和最低薪資的差距有如何?對此,我們進行了稍微更深層次的分析。根據較爲科學的統計方式,平均水我們選用算術平均數來表示,薪資上下限的差距屬於數據的離散程度,因此我們選用了標準差這一指標,數學理論計算公式如下:

在這裏插入圖片描述

圖5:標準差計算公式

其中,N代表自由度,xi表示不同樣本的值,這裏指各個職位的薪資均值,r表示樣本均值,這裏指所有職位薪資均值的平均值。根據公式我們進一步編寫了python程序並得到了進一步分析之後的數據,用Tableau呈現的效果圖如圖6。

在這裏插入圖片描述

圖6:廣州市各職位薪資均值及標準差

2、最熱門的幾種編程語言,根據招聘信息中編程語言出現次數而統計熱門度。
在這裏插入圖片描述

圖7:最熱門的幾種編程語言及出現頻次

3、我們利用python3的jieba模塊對招聘信息進行關鍵字提取,最熱門的技術,統計出幾種最熱門的技術關鍵詞,所佔比重如下圖:

在這裏插入圖片描述

圖8:最熱門的幾種技術關鍵詞及出現頻次

4、求職者非常關心工作的福利待遇,因此我們又對各企業對招聘職位的福利進行了關鍵詞提取分析,各關鍵詞佔比如下圖。

在這裏插入圖片描述

圖9:招聘職位的福利關鍵詞

**5、以上數據分析結果只是能展示出來,沒有明顯的實用效益。爲此,我們更深入地探究了一下,採用了數據預測算法預測趨勢數據預測採用ARIMA模型(Autoregressive Integrated Moving Average model),差分整合移動平均自迴歸模型,見圖10,通過數據與本身之間的關係進行對未來數據走向的預測。 **

在這裏插入圖片描述

圖10:ARIMA模型

6、我們還進行了一項深入分析——基於皮爾遜相關係數的協同過濾算法。根據這個算法,我們就可以爲不同用戶推薦他們各自感興趣、適合他們的招聘信息。皮爾遜相關係數( Pearson correlation coefficient),又稱皮爾遜積矩相關係數(Pearson product-moment correlation coefficient,簡稱 PPMCC或PCCs),是用於度量兩個變量X和Y之間的相關(線性相關),其值介於-1與1之間。

在這裏插入圖片描述

圖11:皮爾遜相關係數模型

(四)結論與總結

通過對採集到的計算機相關招聘信息的較爲詳細的分析,我們團隊總結出了以下幾點結論:

1、總體而言,我國計算機行業相關的職位需求量很大,尤其廣州、上海、深圳等科技發達的沿海城市,對計算機類人才的需求還是很的。其中職位需求量最大的爲廣州市,在本次統計中累計達到148737

2、從計算機相關的各職位而言,開發類工程師的人才需求量非常多,且薪資水平是相當高的。此外,由於如架構師這樣的職位必須具備非常廣泛的專業技能,所以這類職位薪資水平相對較高,本次我隊統計的架構師薪資均值高達約2.4萬人民幣/月。計算機類的工程師、開發人員的薪資水平一般是遠高於計算機類講師的。一般企業中管理者經理的薪資都要普通員工、實習生的薪資,分析結果符合職場形勢

3、從編程語言的熱門度而言,根據我們採集到的這些數據中顯示結果,Java還處於企業招聘最看重的一門語言,因爲Java語言的功能強大,很多企業運營的軟件項目都離不開Java相關的程序編寫,而且繼承了多年以來的Java在項目開發中的重要作用,這種大的趨勢潮流不易被突破。其次,由分析結果可知,企業招聘中Python、SQL、C/C++、JavaScript的出場率也是非常高的。畢竟據官方統計,Python和JavaScript近年來熱度不斷上升,隨着用途的不斷增加,功能不斷增強,根據ARIMA算法預測將來這兩種語言熱度還會呈上升趨勢。而SQL、C/C++則是非常經典、穩定的語言,在很多開發項目中具有不可替代的作用,因此公司招聘對其非常重視。

4、大部分企業都會拿“五險”、“ 一金”、“ 年終獎金”等福利待遇來吸引求職者,而這些福利恰好也是大部分求職者渴望得到的。

附:
在這裏插入圖片描述
在這裏插入圖片描述

總而言之,我們團隊通過自己採集國內計算機相關招聘信息,並對這些數據並進行一系列分析,從各方面把我國當前計算機行業就業情況做了一定的瞭解和彙報,而得到的結果總體而言符合實際,基本與官方權威統計一致。雖然我們進行數據分析的方案和做法還存在很多不足,但這一過程中我們獲益匪淺,進步了很多,我們仍會繼續努力,力求統計更具規模性、多樣性、及時性的數據,採用更加有效的分析方式,研究更高性能、更深層次的數據挖掘算法,這樣才能總結、展示出更加真實、有效的分析成果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章