文|尋找不同的蜜蜂
購置新房,對於剛參加工作沒幾年的孩童來說,可謂壓力山大。特別是,在北上廣深,這種超級城市,買房簡直天方夜譚。
前一陣,颳起了一陣逃離北上廣的熱潮,逃離的理由不必贅述,你我都懂。或許,在新一線城市發展,也是一個不錯選擇。畢竟留在這些城市發展,機會還是多很多。
但說實話,在新一線購置一套新房,似乎也不那麼容易。有些人認爲,新房買不起,購置二手房,也是不錯選擇。也有人認爲,二手房比新房價格還貴。
那麼,到底二手房的價格如何?
通過爬蟲,爬取貝殼二手房網,選取新一線的14個城市爲研究對象,分別是杭州、青島、天津、南京、成都、重慶、長沙、武漢、鄭州、瀋陽、東莞、西安、蘇州和無錫。
共記4萬+二手房信息,其中,每一個城市約3000條二手房信息(貝殼網上限100頁)。
1/ 信息的收集
爬蟲,作爲有效的信息收集途徑之一,其靈活和實時性等特點,已被大家高度認可。互聯網時代,掌握爬蟲技能,是必不可少的技能之一。
python中,目前,有很多爬蟲模塊,比如:scrapy(更爲高級結構化的框架),re,request, beautifulsoup等。
本文繼續使用request+beautifulsoup模塊,爬取數據,包括小區名字、區域、戶型、面積、總價格以及每平米價格。
1)Request負責爬取html源代碼至本地,需注意一點:解析前,查看html是否完全被下載下來。如果發現只爬下部分內容,可能存在反扒機制。
2)Beautifulsoup負責解析以上html,基於CSS選擇器,提取關心的信息,必要時,需對數據進行處理(如:去空格、去換行和去除不必要的字符串等等)。
3)有時網絡不是特別好,爬取過程中會出現中斷,如果不設置監控點,都不知道爬到哪裏。建議使用format()設置頁面監控點。
2/ 信息過濾
爬下的信息中,多少有一些,無效信息。篩選有用的信息,變得極爲關鍵。
通過對新一線城市,4萬條的住房信息處理髮現,各個城市各區的房屋信息條數分佈,極不均勻,一些地區的二手房信息有幾百條,甚至千條,但有些,卻只有幾條。
因此,以大於50條爲過濾條件,統計並計算各城市各區的均值。
3/ 結果可視化
使用pyechart和excel對數據進行可視化,其中,地圖可視化的代碼如下:
對於數據data,可以手動輸入,也可以導入CSV。然後,調整顯示範圍 [10000, 40000 ],很方便。其他參數,可以保持默認即可。
別忘記下載地圖數據,命令行輸入 pip install echarts-china-provinces-pypkg和 pip install echarts-china-cities-pypkg。
對於excel的使用,主要是在上千的數據當中,篩選出各城市各區對應的數據,並求均值,AVERAGEIF()函數,不要錯過。
4/ 結果分析
通過對以上4萬條房屋信息處理和分析,14個城市的二手房均價排名如下:
1)杭州, 39495元/平方米
2)南京, 33346元/平方米
3)青島, 28368元/平方米
4)天津, 27722元/平方米
5)蘇州, 23739元/平方米
6)東莞, 20801元/平方米
7)武漢, 20605元/平方米
8)成都, 17266元/平方米
9)西安, 16636元/平方米
10)鄭州, 16057元/平方米
11)無錫, 15245元/平方米
12)重慶, 14769元/平方米
13)長沙, 11736元/平方米
14)瀋陽, 11378元/平方米
新一線城市,二手房的均價在11000~40000元/平方米之間,差值高達30000元/平方米。可以明顯得知,沿海地區的城市房價確實比中部城市高很多。
1.杭州
目前來說,杭州的二手房價格,在新一線城市排名第一。
杭州各區二手房均價/平方米分佈,呈現不均勻態勢,最低餘杭均價近30000元/平方米左右,最高上城均價直逼50000元/平方米。杭州50%的區域,均價都已經超過40000元/平方米。
2.南京
南京各區二手房均價/平方米分佈不均勻,最低浦口均價24000元/平方米,最高鼓樓46000元/平方米,差值一倍之多。
3.青島
青島各區二手房均價/平方米分佈,也呈現不均勻態勢。青島30%的地區,均價突破30000元/平方米。
4.天津
天津各區二手房均價/平方米分佈,也呈現不均勻態勢。可以明顯看出,和平的均價已經突破50000元/平方米,比最低的武清高出3倍之多。天津75%的地區,均價低於30000元/平方米。
5.蘇州
蘇州各區二手房均價/平方米分佈,也呈現不均勻態勢。除工業園區超出30000元/平方米,其他地區均價在19000~25000元/平方米。
6.東莞
東莞各區二手房均價/平方米分佈,也呈現不均勻態勢。最低均價大於15000元/平方米,最高的松山湖直逼30000元/平方米。
7.武漢
武漢各區的二手房均價分佈極不均勻。均價超過20000元/平方米的區有6個,佔比60%。特別是,武昌均價已經高達26000+元/平方米,比最低的黃陂多一倍。
8.成都
成都各區二手房均價/平方米分佈,也呈現不均勻態勢。4個區均值低於15000/平方米,4個區均值介於15000~20000/平方米,4個區大於20000元/平方米。
9.西安
西安各區二手房均價/平方米分佈較爲持平,14000~17000/平方米左右,除雁塔突破20000元/平方米。
10.鄭州
鄭州各區二手房均價/平方米分佈,也呈現不均勻態勢。除鄭州新區24000/平方米左右,其他地區均價在10000~17000/平方米左右。
11.無錫
無錫各區二手房均價/平方米分佈,也呈現不均勻態勢。但均價均低於20000元/平方米。濱湖與惠山差價5000元/平方米。
12.重慶
重慶各區二手房均價/平方米分佈,也呈現不均勻態勢。在14個新一線城市中,江津7400元/平方米,應該是目前價格最低的地區了。
13.長沙
長沙各區二手房均價/平方米分佈,呈現均勻態勢,各區均價低於13000元/平方米。
14.瀋陽
瀋陽各區二手房均價/平方米分佈,也呈現不均勻態勢。最高和最低差價在8000元/平方米。
你在上述14個城市的哪一個城市,拼搏奮鬥呢?
希望,對購置二手房的你,可以提供一些科學的參考。
(以上數據,均爬取各城市對應最大頁數(100頁)。4萬的數據量,可能不夠全面,結果僅供參考。)
相關文章:
1/ 學習python 115小時後,告訴想學爬蟲的你,別怕,爬蟲,沒那麼難抓!
2/ 爬取60000個崗位,爬蟲告訴想要找或換工作的你,城市和行業,該怎麼選?