原创 pandas處理Excel中的列轉行

問題描述: 在數據處理過程中,我們有時會遇到數據並不是我們想要的格式,比如給的數據表是這樣的: 然而我們需要的格式是這樣的: ) 這時,我們可以使用set_index()+stack()進行列轉行: 處理過程 [1]:impor

原创 數據預處理Part8——數據共線性

文章目錄1. 什麼是數據共線性2. 爲什麼會出現數據共線性3. 如何檢驗共線性?4. 如何解決數據共線性?5. 代碼實現 1. 什麼是數據共線性   所謂共線性問題是指輸入的自變量之間存在較高的線性相關度。共線性問題會導致迴歸模型

原创 數據可視化工具大全

轉自:Alfred數據室 原文地址:好看的數據可視化的圖片是怎麼樣做的? - Alfred數據室的回答 - 知乎 1. 動態條形圖工具 1.1 Flourish   Flourish是一個在線數據可視化網站,可以快速地把表格數據轉

原创 KMeans算法項目實戰:航空公司客戶價值分析

一、背景與目標   通過對客戶進行分類,區分無價值客戶、高價值客戶,企業針對不同價值的客戶制定優化的個性化服務方案,採取不同營銷策略,將有限營銷資源集中於高價值用戶,實現企業利潤最大化目標。   數據爲某航空公司的用戶檔案信息與航

原创 如何提高爬蟲的性能?

文章目錄一. 基礎理論1. 進程與線程2. 進程與線程的使用場景3. 進程和線程的區別二. 代碼實現1. 準備工作2. 單線程抓取3. 多線程抓取4. 多進程抓取三. 總結 一. 基礎理論 1. 進程與線程 什麼是進程?什麼是線程

原创 數據預處理Part9——數據降維

文章目錄1. 什麼是數據降維?2. 爲什麼要進行數據降維?3. 降維是如何實現的?4. sklearn中的降維算法4.1 主成分分析PCA4.2 因子分析FA4.3 獨立成分分析ICA5. 特徵選擇和數據降維有什麼區別?6. 總結

原创 數據預處理Part4——數據離散化

文章目錄離散化,對數據做邏輯分層1. 什麼是數據離散化?2. 爲什麼要將數據離散化3. 如何將數據離散化?3.1 時間數據離散化3.2 多值離散數據離散化3.3 連續數據離散化3.4 連續數據二值化 離散化,對數據做邏輯分層 1.

原创 決策樹實戰系列(一)——泰坦尼克號生還預測

1. 下載數據集 鏈接:https://pan.baidu.com/s/1Z570Ri3d2UMEPP2Nz-Q1lw 提取碼:mfof 2.代碼實現 2.1 引包 [1]:import pandas as pd impo

原创 線性迴歸、Lasso迴歸、嶺迴歸預測北京PM2.5濃度

一、項目背景 北京PM2.5濃度迴歸分析訓練賽 1.數據   數據主要包括2010年1月1日至2014年12月31日間北京pm2.5指數以及相關天氣指數數據。   數據分爲訓練數據和測試數據,分別保存在pm25_train.csv

原创 機器學習系列——隨機森林[分類](一)

文章目錄一、 隨機森林1. 引入隨機森林算法2. 爲什麼隨機森林的準確率要高於單棵決策樹?3. 袋裝法(bagging)二、sklearn中的隨機森林實現1. 參數1. 1 n_estimators1.2 random_sta

原创 數據預處理Part6——數據抽樣

文章目錄1. 什麼是抽樣?2.爲什麼要抽樣?3. 怎麼進行抽樣?3.1 簡單隨機抽樣3.2 等距抽樣3.3 分層抽樣3.4 整羣抽樣 1. 什麼是抽樣?   抽樣是從整體樣本中通過一定的方法選擇一部分樣本。抽樣是數據處理的基本步驟

原创 Tableau可視化分析(四)

Tableau高級數據操作   本文用的數據爲坐席接聽統計數據,其中每條記錄包括一個坐席每天接聽電話的統計信息,以及該坐席所屬中心、部門、組、班、工號、姓名等基本信息。 一、分層結構   分層機構是一種維度之間自上而下的組織形式,

原创 Python—WebSocket爬蟲實戰

1. WebSocket   WebSocket 是 HTML5 開始提供的一種在單個 TCP 連接上進行全雙工通訊的協議。在 WebSocket API 中,瀏覽器和服務器只需要做一個握手的動作,然後,瀏覽器和服務器之間就形成了

原创 數據預處理Part1——數據清洗

文章目錄一、數據預處理二、數據清洗1、缺失值處理1.1 丟棄缺失值1.2 補全缺失值1.3 真值轉換1.4 不處理1.5 特徵選擇2、異常值2.1 異常值處理2.2 保留異常數據的情況2.2.1 異常值正常反映了業務運營結果2.2

原创 數據預處理Part7——特徵選擇

文章目錄特徵選擇:1. 什麼是特徵選擇?2. 爲什麼要進行特徵選擇?3. 怎樣進行特徵選擇3.1 Filter過濾法3.1.1 方差過濾a. VarianceThresholdb. 方差過濾對模型的影響:3.1.2 相關性過濾3.