爬取貝殼二手房4萬條房屋信息,爬蟲告訴你,新一線城市二手房均價排名

文|尋找不同的蜜蜂

購置新房,對於剛參加工作沒幾年的孩童來說,可謂壓力山大。特別是,在北上廣深,這種超級城市,買房簡直天方夜譚。

前一陣,颳起了一陣逃離北上廣的熱潮,逃離的理由不必贅述,你我都懂。或許,在新一線城市發展,也是一個不錯選擇。畢竟留在這些城市發展,機會還是多很多。

但說實話,在新一線購置一套新房,似乎也不那麼容易。有些人認爲,新房買不起,購置二手房,也是不錯選擇。也有人認爲,二手房比新房價格還貴。

那麼,到底二手房的價格如何?

通過爬蟲,爬取貝殼二手房網,選取新一線的14個城市爲研究對象,分別是杭州、青島、天津、南京、成都、重慶、長沙、武漢、鄭州、瀋陽、東莞、西安、蘇州和無錫。

共記4萬+二手房信息,其中,每一個城市約3000條二手房信息(貝殼網上限100頁)。

1/ 信息的收集

爬蟲,作爲有效的信息收集途徑之一,其靈活和實時性等特點,已被大家高度認可。互聯網時代,掌握爬蟲技能,是必不可少的技能之一。

python中,目前,有很多爬蟲模塊,比如:scrapy(更爲高級結構化的框架),re,request, beautifulsoup等。

本文繼續使用request+beautifulsoup模塊,爬取數據,包括小區名字、區域、戶型、面積、總價格以及每平米價格。

1)Request負責爬取html源代碼至本地,需注意一點:解析前,查看html是否完全被下載下來。如果發現只爬下部分內容,可能存在反扒機制。

2)Beautifulsoup負責解析以上html,基於CSS選擇器,提取關心的信息,必要時,需對數據進行處理(如:去空格、去換行和去除不必要的字符串等等)。

3)有時網絡不是特別好,爬取過程中會出現中斷,如果不設置監控點,都不知道爬到哪裏。建議使用format()設置頁面監控點。

圖片發自簡書App

2/ 信息過濾

爬下的信息中,多少有一些,無效信息。篩選有用的信息,變得極爲關鍵。

通過對新一線城市,4萬條的住房信息處理髮現,各個城市各區的房屋信息條數分佈,極不均勻,一些地區的二手房信息有幾百條,甚至千條,但有些,卻只有幾條。

因此,以大於50條爲過濾條件,統計並計算各城市各區的均值。

3/ 結果可視化

使用pyechart和excel對數據進行可視化,其中,地圖可視化的代碼如下:

對於數據data,可以手動輸入,也可以導入CSV。然後,調整顯示範圍 [10000, 40000 ],很方便。其他參數,可以保持默認即可。

別忘記下載地圖數據,命令行輸入 pip install echarts-china-provinces-pypkg和 pip install echarts-china-cities-pypkg。

對於excel的使用,主要是在上千的數據當中,篩選出各城市各區對應的數據,並求均值,AVERAGEIF()函數,不要錯過。

4/ 結果分析

通過對以上4萬條房屋信息處理和分析,14個城市的二手房均價排名如下:

1)杭州, 39495元/平方米

2)南京, 33346元/平方米

3)青島, 28368元/平方米

4)天津, 27722元/平方米

5)蘇州, 23739元/平方米

6)東莞, 20801元/平方米

7)武漢, 20605元/平方米

8)成都, 17266元/平方米

9)西安, 16636元/平方米

10)鄭州, 16057元/平方米

11)無錫, 15245元/平方米

12)重慶, 14769元/平方米

13)長沙, 11736元/平方米

14)瀋陽, 11378元/平方米

圖片發自簡書App

新一線城市,二手房的均價在11000~40000元/平方米之間,差值高達30000元/平方米。可以明顯得知,沿海地區的城市房價確實比中部城市高很多。

圖片發自簡書App

1.杭州

目前來說,杭州的二手房價格,在新一線城市排名第一。

杭州各區二手房均價/平方米分佈,呈現不均勻態勢,最低餘杭均價近30000元/平方米左右,最高上城均價直逼50000元/平方米。杭州50%的區域,均價都已經超過40000元/平方米。

2.南京

南京各區二手房均價/平方米分佈不均勻,最低浦口均價24000元/平方米,最高鼓樓46000元/平方米,差值一倍之多。

3.青島

青島各區二手房均價/平方米分佈,也呈現不均勻態勢。青島30%的地區,均價突破30000元/平方米。

圖片發自簡書App

4.天津

天津各區二手房均價/平方米分佈,也呈現不均勻態勢。可以明顯看出,和平的均價已經突破50000元/平方米,比最低的武清高出3倍之多。天津75%的地區,均價低於30000元/平方米。

圖片發自簡書App

5.蘇州

蘇州各區二手房均價/平方米分佈,也呈現不均勻態勢。除工業園區超出30000元/平方米,其他地區均價在19000~25000元/平方米。

圖片發自簡書App

6.東莞

東莞各區二手房均價/平方米分佈,也呈現不均勻態勢。最低均價大於15000元/平方米,最高的松山湖直逼30000元/平方米。

圖片發自簡書App

7.武漢

武漢各區的二手房均價分佈極不均勻。均價超過20000元/平方米的區有6個,佔比60%。特別是,武昌均價已經高達26000+元/平方米,比最低的黃陂多一倍。

8.成都

成都各區二手房均價/平方米分佈,也呈現不均勻態勢。4個區均值低於15000/平方米,4個區均值介於15000~20000/平方米,4個區大於20000元/平方米。

9.西安

西安各區二手房均價/平方米分佈較爲持平,14000~17000/平方米左右,除雁塔突破20000元/平方米。

10.鄭州

鄭州各區二手房均價/平方米分佈,也呈現不均勻態勢。除鄭州新區24000/平方米左右,其他地區均價在10000~17000/平方米左右。

11.無錫

無錫各區二手房均價/平方米分佈,也呈現不均勻態勢。但均價均低於20000元/平方米。濱湖與惠山差價5000元/平方米。

12.重慶

重慶各區二手房均價/平方米分佈,也呈現不均勻態勢。在14個新一線城市中,江津7400元/平方米,應該是目前價格最低的地區了。

圖片發自簡書App

13.長沙

長沙各區二手房均價/平方米分佈,呈現均勻態勢,各區均價低於13000元/平方米。

圖片發自簡書App

14.瀋陽

瀋陽各區二手房均價/平方米分佈,也呈現不均勻態勢。最高和最低差價在8000元/平方米。

圖片發自簡書App

你在上述14個城市的哪一個城市,拼搏奮鬥呢?

希望,對購置二手房的你,可以提供一些科學的參考。

(以上數據,均爬取各城市對應最大頁數(100頁)。4萬的數據量,可能不夠全面,結果僅供參考。)


相關文章:

1/ 學習python 115小時後,告訴想學爬蟲的你,別怕,爬蟲,沒那麼難抓!

2/ 爬取60000個崗位,爬蟲告訴想要找或換工作的你,城市和行業,該怎麼選?

3/ 爬取豆瓣近4000本書,爬蟲告訴你,在熱門標籤下,大衆都喜歡看什麼書?

4/ 那些在愛奇藝10000000000+播放量的影視作品,你追過幾部?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章