數據分析（2）

原創

2020-06-08 13:46

缺失值處理

-使用reindex()可以改變指定軸上的索引進行改變/增加/刪除操作

如：
df1=df.reindex(index=dates[0:4],colimn=list(df.column)+['E'])

-去掉包含缺失值的行，不改變原來的值

df1.dropna(how='any')

-對缺失值進行填充

df1.fillna(value=5)

-對數據進行布爾填充

pd.isnull(df1)

-統計

df.mean()

df.apply(計算函數)#優先在列上進行相應計算

-直方圖

s.value_counts()#計算相應元素的個數‘

-字符串辦法

把Series對象當作字符串然後進行大小寫等字符串的操作，如：

s.str.lower()#將元素全部變爲小寫

-合併

pd.concat(list)#合併相應DataFramee對象

pd.merge(合併對象，合併對象，on=column_index)#按相應column_index位置，將合併對象在column_index列上相等的值，取相等值的行進行合併

df.append(s)#將s合併於df上

-分組

df.group_by(column_index).sum()#將相應列上相同值進行合併分組,然後進行求和計算

-數據透視表

-時間序列

--針對頻率轉換進行重採樣

--時區表示

rng=pd.date_range('3/6/2012 00:00',periods=5,freq='D')
ts=pd.Series(np.random.randn(len(rang)),rang)
ts_utc=ts.ts_localize('UTC')#此處進行時區表示

--時區轉換

ts_utc.tz_convert('US/Eastern')

--時間跨度轉換

ps=ts.to_period()#轉換爲連續月
ps=ts.to_timestamp()#轉換爲連續月初

-Categorical

--將原始的grade轉換爲Categotical數據類型

df['column_index'].astype('category')

--Categorical重命名

df['column_index'].cat.categories=['a','b','c','d']#將Categorical數據類型改爲更有意義的名稱如abcd

--對Categorical列進行排序存在空的類別

df.groupby("grade").size()

導入和保存數據

-寫入CSV

df.to_csv('文件名')#寫入文件名.csv

-讀取CSV

pd.read_csv('文件名')#讀取文件

-寫入excel於讀取excel

df.to_excel('文件名'，sheet_name='Sheet1')

pd.read_excel

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

數據分析---for循環，while循環，正則表達式

大家好，我是天空之城，今天給大家帶來，數據分析—for循環，while循環，正則表達式正則表達式正則表達式的定義正則表達式是指專門用於描述或刻畫字符串內在規律的表達式。正則表達式的使用場景無法通過切片將字符串

littlespider889

2020-06-30 07:12:57

數據分析與挖掘---匿名函數與自定義函數

大家好，我是天空之城，今天給大家帶來，匿名函數與自定義函數。 1.理解匿名函數的定義和用法; 2.掌握自定義函數的使用技巧; 作用：爲了定製化的需求爲了降低代碼的重複編寫定義匿名函數,可以用lambda關鍵字定義。通過l

littlespider889

2020-06-30 07:12:55

數據分析與挖掘---字符串的構造和方法

大家好，我是天空之城，今天給大家帶來，數據分析與挖掘—字符串的構造和方法 1.字符串的構造單引號:字符串中含有雙引號時; 雙引號:字符串中含有單引號時; 三引號 :字符串中既含有單引號又含有雙引號時 ,或需要多行顯示時; 2.字

littlespider889

2020-06-30 07:12:55

數據分析與挖掘---列表，元組，字典的構造與方法

大家好，我是天空之城一，列表的構造列表是一種存儲數據的容器,藉助於一對方括號構造列表對象。構成列表的元素沒有任何限制,可以是任何類型的數據,也可以是任何結構的數據。列表屬於序列對於序列而言,前文介紹的字符串索引|和切片的

littlespider889

2020-06-30 07:12:53

數據分析與挖掘----pandas模塊的介紹

大家好，我是天空之城，今天給大家帶來，pandas模塊的介紹軟件安裝： python 3 anaconda jupyter notebook 1.掌握外部數據的讀取; 2.如何快速地認知數據的概覽信息; 3. 數據子集的篩選與清

littlespider889

2020-06-30 07:12:52

python畫圖之matplotlib基礎快速入門

matplotlib是數據分析三劍客之一其中需要理解figure(畫布)、axes(座標系)、axis(座標軸)三個基本概念，畫布就是創建一個畫圖的基本區域，座標系就是一個畫布中分割爲多個小的畫圖區域，稱爲座標系（例如一個畫布

littlespider889

2020-06-30 07:12:49

高斯核函數——未完

徑向基函數 (Radial Basis Function 簡稱 RBF), 就是某種沿徑向對稱的標量函數。通常定義爲空間中任一點x到某一中心xc之間歐氏距離的單調函數在計算機視覺中，有時也簡稱爲高斯函數。高斯函數具有五個重要

2020-06-25 18:57:56

python數據分析與挖掘之聚類kmeans算法

聚類不指定類別進行分類（劃分（分裂）法，層次分析法、密度分析法）、網格法、模型法 Kmeans算法屬於分裂法隨機選擇k各點作爲聚類中心計算各個點到這K個點的距離將對應的點聚到與它最近的這個聚類中心重新計算聚類中心比

2020-06-16 13:33:19

數據分析基礎（1）

PYTHON常見數據結構： list、tuple、dict、set -list: --增 list.append(str)#用於在列表末尾追加新的對象 list.extend(list)#用於在列表末尾追加新的序列 --統計 list.c

2020-06-08 13:46:57

數據分析（5）-數據清洗

數據清洗： 1缺失值處理此處缺失值處理主要有-均值\中位數\衆數插補、使用固定值、最近臨插補、迴歸方法、插值法下面主要介紹“拉格朗日插值法“與“牛頓插值法” （1）拉格朗日插值法根據數學知識可知，對於平面上已知的n個點可以找到一個n

2020-06-08 13:46:57

數據分析（6）-挖掘建模

分類與預測1常見的分類與預測算法（1）迴歸分析邏輯迴歸模型：邏輯迴歸模型建模步驟：邏輯迴歸代碼：#如下可運用於根據特徵來判斷違約情況等 import pandas as pd #提取數據 filename= './data/bankloa

2020-06-08 13:46:57

用圖挖掘找到感興趣的人(1)

對Twitter進行數據收集：首先創建相應的文件，用於儲存讀取的數據例： os.path.join(os.path.expanduser("~"), "Data", "twitter") 或者寫入數據 with open (

2020-06-08 13:46:57

數據分析（4）

數據質量分析：主要針對缺失值、異常值、不一致的值、重複數據以及含有特殊符號異常值的查明箱型圖統計利用箱型圖對數據異常值進行查明import os path=os.path.abspath('.')#當前所處文件夾的絕對路徑 import

2020-06-08 13:46:57

數據分析（3）-數據清洗

轉載於：點擊打開鏈接數據因爲存在數據錯誤，數據缺失，離羣值的存在，所以需要對數據進行清洗 1.數據錯誤：錯誤類型 – 髒數據或錯誤數據 • 比如, Age = -2003 – 數據不正確 • ‘0’ 代表真實的0，還是代表缺失 –

2020-06-08 13:46:57

數據分析（8）-漏電用戶的判斷

-分析方法與過程（1）從電力計量自動化系統、營銷系統有選擇的抽取大部分用戶用電負荷、終端報警及違約竊電處罰信息等原始數據（2）對樣本數據探索分析，剔除不可能存在的竊漏電行爲行業的用戶，即白名單用戶，初步審視正常用戶與竊漏電用戶的用電特點（

2020-06-08 13:46:57

24小時熱門文章

最新文章

最新評論文章