原创 成都二手房長啥樣 —— 基於鏈家數據

下面的分析的源數據是從鏈家網上抓取的成都二手房數據,截至時間2019年1月16日。目的也簡單,一個想買房的人關注一下所在城市的房價情況。 需要注意的問題: 只含普通住房, 不含公寓、別墅 鏈家網上只有成都一、二圈層的二手房信息(

原创 信用評分卡模型 —— 基於Lending Club數據

1、前言 Lending Club是全球最大的撮合借款人和投資人的線上金融平臺,它利用互聯網模式建立了一種比傳統銀行系統更有效率的、能夠在借款人和投資人之間自由配置資本的機制。本次分析的源數據基於Lending Club 2017

原创 Human Resources Analytics -- Kaggle Dataset

1 Introducton The Human Resources Analytics is a simulated dataset and the focus is to understand why the best and mo

原创 遊戲付費金額 —— 基於DC遊戲數據(Brutal Age)

背景 “《野蠻時代》(Brutal Age)是一款風靡全球的SLG類型手機遊戲。根據App Annie統計,《野蠻時代》在12個國家取得遊戲暢銷榜第1,在82個國家取得遊戲暢銷榜前10。準確瞭解每個玩家的價值,對遊戲的廣告投放策略和

原创 python爬蟲之七 —— 鏈家二手房

前言 最近用爬蟲在鏈家網上轉了轉,獲取了成都所有二手房的數據(普通住宅,不含公寓、別墅等),一共5萬多條,在爬數據的過程中發現了一些需要注意的問題: 每一組篩選條件最多隻能顯示100頁(每頁30條,一次篩選最多3000條),需要拆分

原创 成都二手房長啥樣 —— 鏈家數據

下面的分析的源數據是從鏈家網上抓取的成都二手房數據,截至時間2019年1月16日。目的也簡單,一個想買房的人關注一下所在城市的房價情況。 需要注意的問題: 只含普通住房, 不含公寓、別墅 鏈家網上只有成都一、二圈層的二手房信息(缺乏

原创 Elo顧客忠誠度 —— kaggle數據

前言 這個數據集來自Kaggle這是鏈接,是Elo(巴西最大的本土支付品牌之一)和Kaggle合作的項目,通過Elo的匿名數據集預測每個客戶的忠誠度(具體到card_id),以及查找影響客戶忠誠度的因素。這個是數據集是虛構的(官方是這

原创 python爬蟲之六 —— selenium和BOSS直聘

主要邏輯 打開首頁 搜索關鍵字,進入第一頁 2.1 獲取詳情頁url 2.2 進入詳情頁抓取數據 翻頁,重複第二步 詳細代碼 from selenium import webdriver from selenium.webdriv

原创 python爬蟲之五 ——拉勾網數據

詳細代碼 import requests import json import math import time from fake_useragent import UserAgent import pymongo #from pr

原创 python爬蟲之一 —— 愛鬥圖圖包抓取

前言 最近有點空閒時間,又開始研究python的爬蟲,事實上這幾天已經寫了好幾個爬蟲,也嘗試了用pyspider爬取網頁,慢慢積累,今天和大家分享一個表情包爬蟲。 相信大家都喜歡鬥圖,今天這個爬蟲就是爬取愛鬥圖網站的圖包,資源豐富,內

原创 python爬蟲之三 —— 淘寶評論

前言 最近看網上的分享文章中,關於淘寶網站,不少朋友都是獲取的商品列表數據,我個人其實對顧客的評論也是比較感興趣的,所以寫了一個簡單的爬蟲獲取淘寶的評論。需要注意的是,淘寶的反爬是很嚴的,需要登陸,對頻率和速度也有限制,所以在爬取的量

原创 python爬蟲之二 —— 瓜子二手車數據

前言 瓜子二手車直賣網相信大家都不陌生,畢竟那句廣告詞——“沒有中間商賺差價,賣家多賣錢,買家少花錢”——還是很有穿透力的。在瓜子的官網上,我們確實能看到不少在售二手車以及這些車輛的詳細數據。 這些數據對有購車需求和想要做這方面研究

原创 python爬蟲之四 —— selenium和京東商品

前言 如果說爬蟲是模擬瀏覽器向服務器發送請求,獲取數據,那麼有了selenium之後,我們可以操控瀏覽器自動幫我們抓取數據。關於selenium在python中的使用,可以參考Selenium Documentation和Seleni