原创 數據處理之數據標準化和數據分組

數據標準化 數據標準化是指讓所有數據等比例縮放,使之落入特定區間便於計算與分析,常用的有0-1標準化,公式爲: 代碼實現如下: # -*- coding: utf-8 -*- import pandas as pd df = p

原创 數據可視化之matplotlib庫實戰(一)

本篇主要內容來自於唐宇迪-機器學習課程的數據可視化章節,此文只做個人實操和理解用。 #折線圖的繪製 # -*- coding: utf-8 -*- import pandas as pd #首先還是照例導入文件 unrate =

原创 數據爬取之基本概念

初識HTML 這一塊我也是新手,html是一種用來描述網頁的語言,也叫超文本標記語言,就是我們肉眼所看到經過瀏覽器解釋的網頁,實際背後是用html書寫的文本。其中關鍵是html標記標籤,如,一般這種標籤由正反尖括號組成,裏面是關鍵

原创 數據可視化之各類圖表繪製(待補充)

散點圖的繪製 散點圖 (scatter diagram): 是以一個變量爲橫座標,另一變量爲縱座標,利用散點的分佈形態放映變量關係的一種圖形。主要由matplotlib庫裏的plt.plot(x,y,style,color=(r,

原创 Python用戶消費行爲分析實例

本文借鑑於知乎用戶秦路的專欄https://zhuanlan.zhihu.com/p/27910430,這裏只是自己理解基礎上加以擴充和整理修改,豐富細節。 由於手頭用戶消費數據的缺失我們這次採用專欄的數據進行實戰。原數據在此:鏈接:

原创 python文件處理之批量刪除文件夾內特定文件

這篇是個人生活上遇到的小問題,就是爲了之前那篇html和css入門,在網盤找到了udacity的前端課程,大家都知道這是國外的在線授課視頻,結果我興沖沖的打開網盤下載,解壓到同一個文件夾完就傻眼了。 就是解壓的字幕壓縮包里居然有四個

原创 關於前程無憂以‘數據分析’爲關鍵詞的招聘信息的數據分析

背景:作爲個數據分析小菜鳥,深知知行合一的重要性。基於本人目前要在杭州尋找一份數據分析的初階工作的現實考量,故決定採用前程無憂上關鍵詞‘數據分析’和地點設置在杭州上的招聘信息作爲此次數據分析的數據來源來進行實操,同時也爲了能讓自己更好

原创 數據可視化之matplotlib庫實戰(二)

本篇主要內容來自於唐宇迪-機器學習課程的數據可視化章節,此文只做個人實操和理解用。 條形圖和散點圖 此次實戰的數據爲美國各大電影網站對各大電影的評分。 # -*- coding: utf-8 -*- import pandas as

原创 數據可視化之matplotlib庫實戰

本篇主要內容來自於唐宇迪-機器學習課程的數據可視化章節,此文只做個人實操和理解用。 #折線圖的繪製 # -*- coding: utf-8 -*- import pandas as pd #首先還是照例導入文件 unrate = p

原创 數據可視化之各類圖表繪製

散點圖的繪製 散點圖 (scatter diagram): 是以一個變量爲橫座標,另一變量爲縱座標,利用散點的分佈形態放映變量關係的一種圖形。主要由matplotlib庫裏的plt.plot(x,y,style,color=(r,g,

原创 數據爬取

初識html 這一塊我也是新手,html是一種用來描述網頁的語言,也叫超文本標記語言,就是我們肉眼所看到經過瀏覽器解釋的網頁,實際背後是用html書寫的文本。其中關鍵是html標記標籤,如,一般這種標籤由正反尖括號組成,裏面是關鍵詞,

原创 數據處理之日期處理

日期轉換 通常文件讀取的日期都爲字符型,爲了計算,我們需要將這轉化爲日期型數據。主要用到to_datetime(x, format)函數,x是你要處理的日期型字符串,format是你要輸出的日期型格式。下面我們以輸出年月日格式爲例:

原创 數據處理之重複值,缺失值,空格值的處理

重複值處理 去除重複值在python中主要是用drop_duplicates()函數,接下來做個小示範( 這邊是我的文件路徑,如果你想實現此功能需要輸入自己的文件路徑): # -*- coding: utf-8 -*- import

原创 數據處理之數據過濾,合併與隨機抽樣

數據過濾與篩選 常用的數據過濾有以下五種手段:比較運算,範圍運算,空值匹配,字符匹配和邏輯匹配,下面我們就以實例來進行學習。首先還是導入我們的文件 # -*- coding: utf-8 -*- import pandas as pd