大數據揭祕: 原來單身女生有這些特點...,掌握大數據,你遠遠不止會這些

據媒體報道,中國目前的單身成年女性的數量已經超過一個多億,也就是說14.3%的成年女性處於單身狀態,與日本全國人口總數基本相當。

知己知彼,百戰不殆。如果你是一個單身女性,你可以看到自己的某些影子;如果是單身男生,你需要了解目標人羣的特點;如果是已婚男士,要相信“天下鳳凰一般美!!!”

說 明

開始本文之前有幾點說明:

1、本文數據主要來自於某婚戀網站的爬蟲搜索數據;

2、該網站上的女生默認爲單身;

3、該網站上的個人信息默認爲真實;

4、爬取的樣本數據具有充分的代表性。

5.很多初學者,對大數據的概念都是模糊不清的,大數據是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq羣:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系。

一、基本概況

爬取該網站18~37歲之間的女生個人主頁信息,總體數量在5000左右,地域範圍涵蓋三十多個省(自治區、直轄市)。數據質量方面:身高、體重和工作等部分信息缺省。

二、人羣年齡與星座分佈

從年齡直方圖看,基本滿足正態分佈,在24歲和32歲左右存在兩個較大的波峯。18~23歲正處於大學教育階段,校園戀情比較多,因此該年齡階段在網站註冊人數較少;26歲處於兩個波峯之間,是剩下比較少的年紀,說明這個年齡階段的比較搶手。

從星座分佈來看,風相星座中的雙子座(11.47%)和天秤座(10.58%)的優異成績勇奪前兩名,有意思的是,同屬風相星座的水瓶座以5.51%墊底。按照一般的理解,風相星座想象力豐富,擅長社交,語言表達能力強,但性格變化多端,有喜新厭舊和情緒化的毛病,這也許是呈現兩極分化的原因吧。而自帶招黑體質的×××座(8.78%)表現相對中庸。

三、外貌協會特點

從身高分佈直方圖上看,身高的衆數爲165CM,主要分佈區間爲160~170。

從體重分佈直方圖上看,體重集中於48~53kg之間,基本滿足正態分佈規律。

從外貌自我描述的關鍵詞上看,“迷人”、“秀氣”、“可愛”高居三甲,同時“長髮”看起來是一個很重要的特徵,有意思的是還有人將“愛笑”、“健康”作爲自我外貌的描述關鍵詞。

四、個性和愛好

從個性描述上看,“溫柔”、“開朗”、“活潑”的女生佔據了單身女性的大多數,估計和人羣分佈規律類似。比較吸引眼球的關鍵詞“簡單”。我覺得此處的簡單,可能就是所謂的“餵馬劈柴周遊世界”“從明天起關心糧食和蔬菜”吧。

從愛好上看,“旅遊”、“逛街”、“聚會交友”愛好榜前三名。這也很好理解,主要的愛好其實是買買買,可以逛街買,也可以旅遊買,買了之後可以聚會交友,而後帶上朋友一起買。。。

五、受教育情況

受教育程度上看,本科佔據了絕大多數,這和人羣的分佈規律基本一致。

六、工作和收入

職業分佈情況見下圖:

令人比較吃驚的是各位單身的收入,不想評論了,都這麼高。。。

七、全國分佈情況

可以看出,經濟發達的上海、北京等大城市的數量比較多,與黑河騰衝線人口分佈規律一致。

八、數據相關性

選取年齡、身高、星座、省份、學歷、收入、職業等7個維度的刻畫數據,分別計算Pearson、Spearman和Kendall相關係數。

結論基本一致:收入和職業的相關性較強(Pearson相關係數=0.46),其次是收入和年齡、學歷的相關性。一個有趣的發現是身高和學歷竟然存在微弱的相關性,Pearson相關係數爲0.26;而星座與其他各項的相關性最弱,所以經常說的XX星座擅長考試的說法應該是沒有依據的吧。

九、小結

單身女生分析報告基本完成。從統計結論上看,與人羣分佈規律基本一致,也與外界的認知基本統一。不過也有幾點有意思的發現:比如年齡分佈的雙峯特點、風相星座的兩極分化、“旅遊逛街交友”的三大愛好以及身高和學歷間的微弱相關性。

數據裏蘊含着豐富的寶藏,只要挖掘,總會有所發現。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章