原创 Python數據分析——數據分佈探索與數據集成

探索數據的分佈規律,非常有用,有時可以直接發現數據的規律。 可以做直方圖,做頻數的分佈情況 先求極差: 極差:最大值-最小值 再求組距: 組距:極差/組數 數據集成的概述 數據集成一般是把不同來源的數據放在一起。但是來自多個地方的數據一定

原创 Python數據分析——數據變換和數據規約(主成分分析)

數據變換 簡單變換 1、數據變換的目的是將數據轉化爲更方便分析的數據 2、簡單變換通常使用函數變換的方式進行,常見的函數變換包括:開方,平方,對數等 數據規範化 1、離差標準化--消除量綱(單位)影響以及變異大小因素的影響(最小最大標準化

原创 Python數據分析——數據導入

導入csv數據 csv是一種常見的數據存儲格式,基本上我們遇到的數據都可以轉爲這種存儲格式。在Python數據分析中,可以通過pandas模塊導入csv數據 i= pd.read_csv("文件地址") print(i.describe

原创 Python數據分析——數據建模、數據分類實現過程、常見分類算法

python數據建模概述 數據建模指的是對現實世界各類數據的抽象組織,建立一個適合的模型對數據進行數據 在數據分析與挖掘中,我們通常需要根據一些數據建立起特定的模型,然後處理。 模型的建立需要依賴於算法,一般,常見的算法有分類、聚類、關聯

原创 Python數據分析——matplotlib折線圖和散點圖

一般情況下,繪製折線圖和散點圖使用matplotlib.pylab下的plot,繪製折線圖使用matplotlib.pylab下的hist 繪製折線圖 # 折線圖/散點圖,一般使用plot # 直方圖,一般使用hist import m

原创 數據挖掘與數據分析

一、數據挖掘和數據分析概述 數據挖掘和數據分析都是從數據中提取一些有價值的信息,二者有很多聯繫,但是二者的側重點和實現手法有所區分。  數據挖掘和數據分析的不同之處:  1、在應用工具上,數據挖掘一般要通過自己的編程來實現需要掌握編程語言

原创 Python網絡爬蟲——urllib庫的使用

urllib是python處理url的軟件包,包含四個處理url的模塊,分別爲:         urllib.request——用於打開url和讀取url         urllib.error——包含urllib.request引發

原创 Python數據分析——瞭解數據分析與挖掘技術

什麼是數據分析與數據挖掘技術? 所謂的數據分析,就是對已知的數據進行分析,然後提取出一些有價值的信息,比如統計出平均數、標準差等信息,數據分析的數據量有時可能不會太大,而數據挖掘,是指對大量的數據進行分析與挖掘,得到一些未知的,有價值的信

原创 Ubuntu16.04 遠程桌面連接(VNC)

1、查看我的Ubuntu系統版本2、客戶機win10下載vnc viewer安裝:下載地址:https://download.csdn.net/download/qq_28284093/10387251  點擊打開鏈接或者直接可以去官網下

原创 Python數據分析——數據分析與挖掘相關模塊

相關模塊簡介 1、numpy  可以高效處理數據、提供數組支持,是很多模塊的依賴,比如pandas、scipy、matplotlib都依賴這個模塊,所以這個模塊是基礎 2、pandas  用的最多的一個模塊,主要用於進行數據探索可數據分析

原创 Python數據分析——數據探索與數據清洗

數據探索與數據清洗概述 數據探索的目的是早發現數據的一些簡單規律,數據清洗的目的是留下可靠數據,必滿髒數據的干擾。這兩者沒有嚴格的先後順序。經常在一個階段進行。 數據探索核心 數據質量分析(跟數據清洗密切相關) 數據特徵分析(分佈、對比、

原创 Python數據分析——相關模塊的基本使用

1、numpy使用 數組中的排序,使用sort()方法 x = numpy.array([['8','9','5'],['1','2','3']]) x.sort() print(x) print(type(x)) 運行結果: [['

原创 Python數據分析——numpy模塊

目錄 概述 Numpy  數組類型 Numpy初探 Numpy數組生成 列表或元組轉換 arange方法創建 linspace方法創建 ones方法創建 zeros方法創建 eye方法創建 從已知數據創建 ndarray數組屬性 概述 N

原创 Python數據分析——線性迴歸算法

現實例子: 工資 年齡 額度 4000 25 20000 8000 30 70000 5000 28 35000 7500 33 50000 12000 40 85000 數據:工資和年齡(2個特徵,當然可以有多個特徵) 目標:預測能從銀

原创 Python數據分析——matplotlib直方圖

通過直方圖可以很方便知道數據的分佈情況 繪製直方圖 import numpy as np import matplotlib.pylab as pyl # 生成隨機數 # data = np.random.randint(1,20,10