數據可視化-python應用

引用


一. 統計方法

python lib: numpy

  • 平均值、最大值、最小值、求和
  • 標準誤差:表示樣本平均數和總體平均數的變異程度,可以用來反映結果精密度。
  • 標準差(均方差):計算一組數據偏離均值的平均幅度,不管這組數據是樣本數據還是總體數據
  • 方差:在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量
  • 中位數:對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作爲中位數。
  • 衆數:在統計分佈上具有明顯集中趨勢點的數值,代表數據的一般水平(衆數可以不存在或多於一個)
import numpy as np
from scipy.stats import mode

array = np.array([1, 3, 4, 23, 565, 1, -8, 123, 111, 54, 45.0, 3, 3])

print '求和:', array.sum()
print '最大值:', array.max()
print '最小值:', array.min()
print '條數:', array.size
print '標準差:', array.std()---------------偏離平均值的幅度
print '平均值:', array.mean()
print '中位數:', np.median(array)
print '方差:', np.var(array)---------------這組數據離散程度
print '衆數:', mode(array).mode, mode(array).count

二. 圖表

數據通常包含五種關係:構成、比較、趨勢、分佈及聯繫。

  • 構成:關注每個部分所佔整體的百分比,適用餅圖。
  • 比較:展示事物的排列順序,首選條圖。
  • 趨勢:常見的時間序列關係,適用線圖能更好的展示變化。
  • 分佈:關心各數值範圍包含多少項目,適用柱圖。
  • 聯繫:查看兩個變量之間關係,適用氣泡圖。

三. 可視化

python lib:matplotlib、Pandas、Seaborn、ggplot、Bokeh、pygal、Plotly

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章