據媒體報道,中國目前的單身成年女性的數量已經超過一個多億,也就是說14.3%的成年女性處於單身狀態,與日本全國人口總數基本相當。
知己知彼,百戰不殆。如果你是一個單身女性,你可以看到自己的某些影子;如果是單身男生,你需要了解目標人羣的特點;如果是已婚男士,要相信“天下鳳凰一般美!!!”
說 明
開始本文之前有幾點說明:
1、本文數據主要來自於某婚戀網站的爬蟲搜索數據;
2、該網站上的女生默認爲單身;
3、該網站上的個人信息默認爲真實;
4、爬取的樣本數據具有充分的代表性。
5.很多初學者,對大數據的概念都是模糊不清的,大數據是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq羣:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系。
一、基本概況
爬取該網站18~37歲之間的女生個人主頁信息,總體數量在5000左右,地域範圍涵蓋三十多個省(自治區、直轄市)。數據質量方面:身高、體重和工作等部分信息缺省。
二、人羣年齡與星座分佈
從年齡直方圖看,基本滿足正態分佈,在24歲和32歲左右存在兩個較大的波峯。18~23歲正處於大學教育階段,校園戀情比較多,因此該年齡階段在網站註冊人數較少;26歲處於兩個波峯之間,是剩下比較少的年紀,說明這個年齡階段的比較搶手。
從星座分佈來看,風相星座中的雙子座(11.47%)和天秤座(10.58%)的優異成績勇奪前兩名,有意思的是,同屬風相星座的水瓶座以5.51%墊底。按照一般的理解,風相星座想象力豐富,擅長社交,語言表達能力強,但性格變化多端,有喜新厭舊和情緒化的毛病,這也許是呈現兩極分化的原因吧。而自帶招黑體質的×××座(8.78%)表現相對中庸。
三、外貌協會特點
從身高分佈直方圖上看,身高的衆數爲165CM,主要分佈區間爲160~170。
從體重分佈直方圖上看,體重集中於48~53kg之間,基本滿足正態分佈規律。
從外貌自我描述的關鍵詞上看,“迷人”、“秀氣”、“可愛”高居三甲,同時“長髮”看起來是一個很重要的特徵,有意思的是還有人將“愛笑”、“健康”作爲自我外貌的描述關鍵詞。
四、個性和愛好
從個性描述上看,“溫柔”、“開朗”、“活潑”的女生佔據了單身女性的大多數,估計和人羣分佈規律類似。比較吸引眼球的關鍵詞“簡單”。我覺得此處的簡單,可能就是所謂的“餵馬劈柴周遊世界”“從明天起關心糧食和蔬菜”吧。
從愛好上看,“旅遊”、“逛街”、“聚會交友”愛好榜前三名。這也很好理解,主要的愛好其實是買買買,可以逛街買,也可以旅遊買,買了之後可以聚會交友,而後帶上朋友一起買。。。
五、受教育情況
受教育程度上看,本科佔據了絕大多數,這和人羣的分佈規律基本一致。
六、工作和收入
職業分佈情況見下圖:
令人比較吃驚的是各位單身的收入,不想評論了,都這麼高。。。
七、全國分佈情況
可以看出,經濟發達的上海、北京等大城市的數量比較多,與黑河騰衝線人口分佈規律一致。
八、數據相關性
選取年齡、身高、星座、省份、學歷、收入、職業等7個維度的刻畫數據,分別計算Pearson、Spearman和Kendall相關係數。
結論基本一致:收入和職業的相關性較強(Pearson相關係數=0.46),其次是收入和年齡、學歷的相關性。一個有趣的發現是身高和學歷竟然存在微弱的相關性,Pearson相關係數爲0.26;而星座與其他各項的相關性最弱,所以經常說的XX星座擅長考試的說法應該是沒有依據的吧。
九、小結
單身女生分析報告基本完成。從統計結論上看,與人羣分佈規律基本一致,也與外界的認知基本統一。不過也有幾點有意思的發現:比如年齡分佈的雙峯特點、風相星座的兩極分化、“旅遊逛街交友”的三大愛好以及身高和學歷間的微弱相關性。
數據裏蘊含着豐富的寶藏,只要挖掘,總會有所發現。