Python爬取鏈家網獲取二手房數據並調用高德api獲得經緯度

原創

2020-05-13 21:04

鏈家網獲得數據地址，高德api獲得經緯度（同理鏈家網也可以換成其他58同城，趕集網的數據，因爲反爬蟲比較厲害，沒時間整，就用鏈家網的數據先試試水）

首先爬鏈家網，Info包含一條信息

import json
import requests
from bs4 import BeautifulSoup
import re,sys
from fake_useragent import UserAgent
import importlib
importlib.reload(sys)

pro=['220.175.144.55:9999']
ua = UserAgent()
for i in range(1,2):
    # 循環構造url
    url = 'http://hz.lianjia.com/ershoufang/pg{}/'
    k = url.format(i)
    # 添加請求頭，否則會被拒絕

    headers = {'Referer': 'https://hz.lianjia.com/ershoufang/',
        'user-agent':ua.random}
    res = requests.get(k, headers=headers)
    # 基於正則表達式來解析網頁內容，拿到所有的詳情url
    # 原始可能是這麼做的，但是後來發現bs4給我們提供了更方便的方法來取得各元素的內容
    # 正則表達式最重要的兩個東西，.任意匹配字符，*匹配任意次數，？以html結束
    text = res.text
    re_set = re.compile('https://hz.lianjia.com/ershoufang/[0-9]*.?html')
    re_get = re.findall(re_set,text)

    #去重
    lst2 = {}.fromkeys(re_get).keys()

for name in lst2:
    res = requests.get(name, headers=headers)
    info = {}
    text2 = res.text
    soup = BeautifulSoup(text2, 'html.parser')
    info['地址'] = soup.select('.main')[0].text
    info['總價'] = soup.select('.total')[0].text
    info['每平方售價'] = soup.select('.unitPriceValue')[0].text
    info['小區名稱'] = soup.select('.info')[0].text
    info['所在區域'] = soup.select('.info a')[0].text + ':' + soup.select('.info a')[1].text

然後調用高德api,你肯定要申請key,從而使用高德的服務

進入高德開發官網，註冊賬號啥的
然後創建應用

創建成功後就能得到一個key，名稱隨意
然後獲取完數據，大致是這樣的

取紅框數據獲取經緯度

    # 根據地址獲取對應經緯度，通過高德地圖的api接口來進行
    mc = soup.select('.info')[0].text
    location1 = '杭州' + mc
    # print(location1)
    base = 'https://restapi.amap.com/v3/geocode/geo?key=3e176b0540a337b449930fc4c12cab11&address='+location1
    response = requests.get(base)
    result = json.loads(response.text)
    info['經緯度']=result['geocodes'][0]['location']
    print(info)
    with open('G:/新建文件夾/pc/image/a.csv', 'a', encoding='utf-8')as data:
        print(str(info), file=data)

下面是全部代碼，比較簡單就不寫函數封裝了

import json
import requests
from bs4 import BeautifulSoup
import re,sys
from fake_useragent import UserAgent
import importlib
importlib.reload(sys)

pro=['220.175.144.55:9999']
ua = UserAgent()
for i in range(1,2):
    # 循環構造url
    url = 'http://hz.lianjia.com/ershoufang/pg{}/'
    k = url.format(i)
    # 添加請求頭，否則會被拒絕

    headers = {'Referer': 'https://hz.lianjia.com/ershoufang/',
        'user-agent':ua.random}
    res = requests.get(k, headers=headers)
    # 基於正則表達式來解析網頁內容，拿到所有的詳情url
    # 原始可能是這麼做的，但是後來發現bs4給我們提供了更方便的方法來取得各元素的內容
    # 正則表達式最重要的兩個東西，.任意匹配字符，*匹配任意次數，？以html結束
    text = res.text
    re_set = re.compile('https://hz.lianjia.com/ershoufang/[0-9]*.?html')
    re_get = re.findall(re_set,text)

    #去重
    lst2 = {}.fromkeys(re_get).keys()

for name in lst2:
    res = requests.get(name, headers=headers)
    info = {}
    text2 = res.text
    soup = BeautifulSoup(text2, 'html.parser')
    info['地址'] = soup.select('.main')[0].text
    info['總價'] = soup.select('.total')[0].text
    info['每平方售價'] = soup.select('.unitPriceValue')[0].text
    info['小區名稱'] = soup.select('.info')[0].text
    info['所在區域'] = soup.select('.info a')[0].text + ':' + soup.select('.info a')[1].text
    # 根據地址獲取對應經緯度，通過高德地圖的api接口來進行
    mc = soup.select('.info')[0].text
    location1 = '杭州' + mc
    # print(location1)
    base = 'https://restapi.amap.com/v3/geocode/geo?key=3e176b0540a337b449930fc4c12cab11&address='+location1
    response = requests.get(base)
    result = json.loads(response.text)
    info['經緯度']=result['geocodes'][0]['location']
    print(info)
    with open('G:/新建文件夾/pc/image/a.csv', 'a', encoding='utf-8')as data:
        print(str(info), file=data)

簡單看一下數據

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬取鏈家網獲取二手房數據並調用高德api獲得經緯度

鏈家網獲得數據地址，高德api獲得經緯度（同理鏈家網也可以換成其他58同城，趕集網的數據，因爲反爬蟲比較厲害，沒時間整，就用鏈家網的數據先試試水）

首先爬鏈家網，Info包含一條信息

然後調用高德api,你肯定要申請key,從而使用高德的服務

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

python數據清洗實戰入門筆記（六）數據預處理

python數據清洗實戰入門筆記（五）數據統計

python數據清洗實戰入門筆記（七）總結

害！兩小時帶你看透python數據可視化

python數據清洗實戰入門筆記（三）表處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結