用數據分析的思路找數據分析的工作


作爲一個在找工作的人,最主要的必然是海投簡歷,但是作爲一名數據人,能否用數據分析的思路幫助自己去更好、更快地找工作呢?

答案是肯定可以的,而且數據分析的思路不僅適用於找數據分析的工作,可以說,幾乎找任何工作都可以用得到。(文末有彩蛋)

下面我就把自己的經歷放上來,歡迎各位朋友一起交流(E-mail:[email protected]


首先,收集數據

採集工具:“八爪魚採集器”。

**採集時間:**2017年4月11日,21點。

採集方法:

  1. 打開智聯招聘首頁,選擇全國區域
  2. 在搜索框中輸入“數據分析”,回車進行搜索
  3. 將網址複製到八爪魚採集器中,使用單機採集方式,自動跳轉頁碼進行採集。

其他說明:此次採集內容包含公司名稱、薪資、工作地點、公司性質、公司規模及經驗、學歷要求等內容,共有5460條信息。


然後,處理數據

使用八爪魚採集器可以導出Excel、CSV等格式的文件,爲方便後續其他操作,導出爲CSV格式的文件。

主要將數據進行以下處理:

  1. 刪除重複數據1426條,得到有效數據4034條。
  2. 對原數據的字段進行重編碼,原始數據中字段均爲拼音簡稱,將其改爲漢字。如:將“gsmc”改爲“公司名稱”
  3. 根據崗位職責,填充空缺信息,如:崗位職責中明確寫明要求本科學歷,而“學歷”字段中爲空,則將空值改爲本科。
  4. 拆分原字段“地點”,原數據中有諸如:北京-大興區,這樣的內容,爲統一數據格式,將其分爲兩個字段:工作地點和具體地點,工作地點僅爲市名,具體地點包含區名。
  5. 新增字段:省份,根據工作地點字段進行匹配省份名稱,首都及直轄市均保持原來內容。增加薪資下限、薪資上限,分別表示薪資列中的最小值和最大值。
  6. 對薪資字段進行修改,原數據內容爲“4001-6000”、“1000以下”、“面議”等,將區間分爲“薪資下限”和“薪資上限”,面議的內容爲空,1000以下,安裝0-1000拆分。
  7. 增加經緯度字段,表示每個工作地點的經緯度。
  8. 修改經驗列,將所有類似於1-3年,3-5年,取最小值。

最終得到:19個字段,4034條數據。


現在,開始分析

我比較感興趣的是以下幾個內容:

哪些公司在招聘?

哪些地方需求高?

招聘要求高不高?

薪資待遇好不好?


壹 / 哪些公司在招聘?

1、公司名稱

在4000多條信息中,共有1764個公司在招聘,版面有限,不能將這些公司全部放上來,所以選取了招聘數量最多的前20名。

前20名公司

前三名的數量實在太過龐大,有必要看一下具體的數值。

公司名 招聘數量
北京萬向通匯投資有限公司 720
北京萬向聯合控股集團有限公司 316
北京萬向通匯投資管理有限公司 128
小計 1164

果然,前三名就佔了幾乎四分之一。排除前三名後,再看一下整體情況及前20名的公司。

除去前三名的前20名公司

2、公司性質

公司性質分佈情況

可以看出,股份制和民營企業需求最大,

3、公司規模

公司規模按照人數來劃分,從圖形來看,基本上滿足正態分佈。

公司規模分佈情況

不過也可以看得出來,大部分公司人數都是蠻多的。可以想象,小規模的公司,需求都不會太高。


貳 / 哪些地方需求高?

底下的幾張地圖,用的是Tableau繪製的,畢竟Tableau的交互比較方便。首先來看看各省的招聘數量。

各省招聘數量,顏色越深代表需求數量越大,青海、新疆兩個地區爲0。

可以看出,北京作爲排頭兵,領先不止一點點,其次就是長三角和珠三角,在招聘需求上,一線城市的缺口還是很多的。

當然,招聘需求多隻是一方面,給出的待遇如何呢?

各省平均薪資,顏色越深代表薪資越高,青海、新疆兩個地區爲0。

不可思議的是薪資最高的居然是西藏。

原因很簡單,西藏的招聘信息只有一條,給出的薪資待遇是10001-15000元,平均一下之後呢,就是12500.5元。

上海的平均薪資是10406元,北京是9335元,除此之外的江蘇、廣東也不過8849和8145元。浙江在這輪比拼中稍遜一籌,只有6156。

第四名往後的分別是:湖北(6743.64)、海南(6667)、內蒙古(6500.4)、安徽(6388.23)、廣西(6333.5)、貴州(6285.93)、四川(6220.43)。

看完了以省爲單位的分析,再細分到城市,看一看具體是哪些城市對於數據分析的招聘需求大,也看一看哪些城市比較土豪。

各市招聘情況分佈,圓圈大小代表招聘數量多少,顏色深淺代表平均薪資高低。

可以看出,不管是需求還是薪資,北京、長三角、珠三角一直霸佔三強寶座。

當然,內陸的需求主要集中在省會城市,比如,西安、成都、鄭州、合肥、濟南,這些在地圖上的數據都很明顯。

所以,大數據蓬勃發展的時代,各個地方的需求和待遇都不錯。當然,想要更好一點的機會和大於,還是優先考慮北京、長、珠三角。


叄 / 招聘要求高不高?

這一方面的維度不好把握,所以主要從學歷要求和工作經驗來進行分析。

學歷要求

簡單統計一下數量之後,發現要求並不是很高。其中有個類別是空白,這個可以當做不限來看待。因此,招聘需求主要集中在大專、不限和本科。

學歷要求情況

工作經驗

工作經驗中,有些數據是這樣的:1-3年,3-5年,因此,爲了統一口徑,所有類似的數據都在處理數據時進行了取最小值。所以,工作經驗指代的是,最低的工作經驗要求。

最低工作經驗要求情況

可以看到,最明顯的就是還是有空白數據,完全搞不懂這些公司是怎麼想的,難倒沒有要求嗎?

除此之外,1年和3年的工作經驗最爲吃香。

畢竟大數據發展並沒有很長時間,三年工作經驗可以當做中流砥柱,帶來的效益很明顯;而一年工作經驗的人,最起碼可以不經培訓就上手開始工作,人力成本大大降低。

所以,無論是學歷還是工作經驗,要求上來說都不是很高。這對於找工作的人來說,無疑是一個好消息。


肆 / 薪資待遇好不好?

本部分內容比較多,從以下幾個方面進行分析:

1. 簡述

2. 公司

3. 地點

4. 要求


簡述

因源數據都是薪資區間,形式諸如:1000元以下,4001-6000元。因此,新增了三列,分別放置:最低薪資,最高薪資,及平均薪資。

以下主要按照平均薪資作爲衡量指標。

首先看看平均薪資的幾個指標:

最小值:500
25%分位數:5000
中位數:7000
均值:8373
75%分位數:9000
最大值:125000

還有59個缺失值,缺失值的數據呢,就表示薪資爲面議。

薪資分佈情況

可以看出,5001-10000元的區間最多,2090個,幾乎佔了一半;其次就是0-5000,有點慘的感覺。而且隨着薪資的上漲,數量越來越少,到最後,就少得可憐了。

尤其從10000開始,似乎是斷崖式的墜落,15000以上,只有159個。

高薪不是沒有,只是太少了。


公司

1. 公司規模

公司規模薪資分佈圖

離羣值影響太大,圖表無法完全展示信息,因此,將40000以上定爲離羣值,進行剔除。

刪除離羣值後的公司規模薪資分佈圖

先看中位數,規模在10000人以上的公司,反而給的最少,20人以下的公司反而給的最多。

再看四分位距,大部分在5000以內,而且多數分佈在5000至10000這個區間內。

2. 公司性質

公司性質薪資分佈情況

還是一樣,由於離羣值的影響,無法展示全部的信息,所以,還是一樣篩選40000以下的數據。

刪除離羣值後公司性質薪資分佈情況

前面提到過,股份制企業跟民營企業的需求量最大,現在從薪資方面來看,不僅需求量大,薪資的分佈區間也很大,高的特別高,低的特別低。

從中位數來看的話,還是國企和事業單位領先一點。大數據時代可能還是會有“鐵飯碗”。


地點

已經畫過了兩張不同地區的薪資水平情況分佈圖,所以這裏就不做仔細闡述,先把之前的兩張圖放上來。

各省平均薪資,顏色越深代表需求數量越大,青海、新疆兩個地區爲0。

各市招聘情況分佈,圓圈大小代表招聘數量多少,顏色深淺代表平均薪資高低。

以上兩張是用Tableau做的,爲了好(zhuang)看(bi),特意用Excel的三維地圖做了一個三維的熱力圖,如下:

各地薪資分佈情況


要求

同樣,此處還是分爲學歷和工作經驗。

學歷與薪資(已經剔除高於40000的離羣值)

除去不限和空白的數據,博士學歷的幾項指標都比較高,其次就是碩士。

當然也可以看得到,本科和大專的部分離羣值也比較高,甚至高過博士和碩士的最大值,說明學歷並不完全是衡量薪資水平的標準,只能說隨着學歷的上升,薪資也有一定的提高。

工作經驗與薪資情況

由上圖可以看出,薪資的多寡,在一定程度上與工作經驗確實有關係。同時可以看出,3年和5年的區間跨度最大。所以,經驗的累加並不完全能給我們帶來薪資的增長,更重要的,還是得看實力。


最後,分享一下源數據和源代碼。

鏈接: http://pan.baidu.com/s/1qXGMP20

密碼: kxsb

聯繫小鑫:[email protected]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章