Numpy基礎入門(6)統計函數和排序

學習彙總:點這裏

統計函數

1.numpy.amin() 和 numpy.amax(),這些函數從給定數組中的元素沿指定軸返回最小值和最大值。

>>>import numpy as np 
>>>a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
>>>a 
array([[3, 7, 5],
       [8, 4, 3],
       [2, 4, 9]])

>>>np.amin(a,1)  
array([3, 3, 2])

>>>np.amin(a,0)  
array([2, 4, 3])

>>>np.amax(a)  
9

>>>np.amax(a, axis =  0)
array([8, 7, 9])

2.numpy.ptp()函數返回沿軸的值的範圍(最大值 - 最小值)。

>>>import numpy as np 
>>>a = np.array([[3,7,5],[8,4,3],[2,4,9]])  
>>>a 
array([[3,7,5],[8,4,3],[2,4,9]])

>>>np.ptp(a)  
7

>>>np.ptp(a, axis =  1)  
array([4, 5, 7])
 
>>>np.ptp(a, axis =  0)
array([6, 3, 6])

3.numpy.percentile()百分位數是統計中使用的度量,表示小於這個值得觀察值佔某個百分比。

函數numpy.percentile()接受以下參數。

numpy.percentile(a, q, axis)

序號 參數及描述
1 a 輸入數組
2 q 要計算的百分位數,在 0 ~ 100 之間
3 axis 沿着它計算百分位數的軸
>>>import numpy as np 
>>>a = np.array([[30,40,70],[80,20,10],[50,90,60]])  
>>>a 
array([[3, 7, 5],
       [8, 4, 3],
       [2, 4, 9]])

>>>np.percentile(a,50)  
 4.0

>>>np.percentile(a,50, axis =  1)  
array([ 5.,  4.,  4.])

>>>np.percentile(a,50, axis =  0)
array([ 3.,  4.,  5.])

4.numpy.median()中值定義爲將數據樣本的上半部分與下半部分分開的值。

>>>import numpy as np 
>>>a = np.array([[30,65,70],[80,95,10],[50,90,60]])  
>>>a 
array([[30, 65, 70],
       [80, 95, 10],
       [50, 90, 60]])

>>>np.median(a)  
65.0

>>>np.median(a, axis =  0)  
array([ 50.,  90.,  60.])

>>>np.median(a, axis =  1)
array([ 65.,  80.,  60.])

5.numpy.mean()算術平均值是沿軸的元素的總和除以元素的數量。 numpy.mean()函數返回數組中元素的算術平均值。 如果提供了軸,則沿其計算。

>>>import numpy as np 
>>>a = np.array([[1,2,3],[3,4,5],[4,5,6]])  
>>>a 
array([[1, 2, 3],
       [3, 4, 5],
       [4, 5, 6]])
  
>>>np.mean(a)  
3.6666666666666665

>>>np.mean(a, axis =  0)  
array([ 2.66666667,  3.66666667,  4.66666667])

>>>np.mean(a, axis =  1)
array([ 2.,  4.,  5.])

6.numpy.average()加權平均值是由每個分量乘以反映其重要性的因子得到的平均值。

numpy.average()函數根據在另一個數組中給出的各自的權重計算數組中元素的加權平均值。 該函數可以接受一個軸參數。 如果沒有指定軸,則數組會被展開。

考慮數組[1,2,3,4]和相應的權重[4,3,2,1],通過將相應元素的乘積相加,並將和除以權重的和,來計算加權平均值。加權平均值 = (14+23+32+41)/(4+3+2+1)

>>>import numpy as np 
>>>a = np.array([1,2,3,4])  
>>>a 
array([1, 2, 3, 4])
 
>>>np.average(a)  
2.5

# 不指定權重時相當於 mean 函數
wts = np.array([4,3,2,1])  
>>>np.average(a,weights = wts)  
2.0

# 如果 returned 參數設爲 true,則返回權重的和   
>>>np.average([1,2,3,  4],weights =  [4,3,2,1], returned =  True)
(2.0, 10.0)

在多維數組中,可以指定用於計算的軸。

>>>import numpy as np 
>>>a = np.arange(6).reshape(3,2)  
>>>a 
array([[0, 1],
       [2, 3],
       [4, 5]])

wt = np.array([3,5])  
>>>np.average(a, axis =  1, weights = wt)  
array([ 0.625,  2.625,  4.625])
 
>>>np.average(a, axis =  1, weights = wt, returned =  True)
(array([ 0.625,  2.625,  4.625]), array([ 8.,  8.,  8.]))

7.標準差

標準差是與均值的偏差的平方的平均值的平方根。標準差公式如下:

std = sqrt(mean((x - x.mean())**2))

如果數組是[1,2,3,4],則其平均值爲2.5。 因此,差的平方是[2.25,0.25,0.25,2.25],並且其平均值的平方根除以4,即sqrt(5/4)是1.1180339887498949。

8.方差

方差是偏差的平方的平均值,即mean((x - x.mean())** 2)。 換句話說,標準差是方差的平方根。

排序

NumPy中提供了各種排序相關功能。這些排序函數實現不同的排序算法,每個排序算法的特徵在於執行速度,最壞情況性能,所需的工作空間和算法的穩定性。 下表顯示了三種排序算法的比較。

種類 速度 最壞情況 工作空間 穩定性
‘quicksort’(快速排序) 1 O(n^2) 0
‘mergesort’(歸併排序) 2 O(n*log(n)) ~n/2
‘heapsort’(堆排序) 3 O(n*log(n)) 0

1.numpy.sort()

sort()函數返回輸入數組的排序副本。 它有以下參數:

numpy.sort(a, axis, kind, order)

序號 參數及描述
1. a 要排序的數組
2. axis 沿着它排序數組的軸,如果沒有數組會被展開,沿着最後的軸排序
3. kind 默認爲’quicksort’(快速排序)
4. order 如果數組包含字段,則是要排序的字段
>>>import numpy as np  
>>>a = np.array([[3,7],[9,1]])  
>>>a 
array([[3, 7],
       [9, 1]])

>>>np.sort(a)  
array([[3, 7],
       [1, 9]])

>>>np.sort(a, axis =  0)  
array([[3, 1],
       [9, 7]])

# 在 sort 函數中排序字段 
>>>dt = np.dtype([('name',  'S10'),('age',  int)]) 
>>>a = np.array([("raju",21),("anil",25),("ravi",  17),  ("amar",27)], dtype = dt)  
>>>a 
array([('raju', 21), ('anil', 25), ('ravi', 17), ('amar', 27)], 
      dtype=[('name', 'S10'), ('age', '<i4')])

>>>np.sort(a, order =  'name')
array([('amar', 27), ('anil', 25), ('raju', 21), ('ravi', 17)], 
      dtype=[('name', 'S10'), ('age', '<i4')])

2.numpy.argsort()

numpy.argsort()函數對輸入數組沿給定軸執行間接排序,並使用指定排序類型返回數據的索引數組。 這個索引數組用於構造排序後的數組。

>>>import numpy as np 
>>>x = np.array([3,  1,  2])  
>>>x 
array([3, 1, 2])

>>>y = np.argsort(x)  
>>>y 
array([1, 2, 0], dtype=int64)

>>>x[y]  
array([1, 2, 3])
 
>>>for i in y:  
   		print x[i],
1 2 3

3.numpy.lexsort()

函數使用鍵序列執行間接排序。 鍵可以看作是電子表格中的一列。 該函數返回一個索引數組,使用它可以獲得排序數據。 注意,最後一個鍵恰好是sort 的主鍵。


>>>import numpy as np 
>>>nm =  ('raju','anil','ravi','amar') 
>>>dv =  ('f.y.',  's.y.',  's.y.',  'f.y.') 
>>>ind = np.lexsort((dv,nm))  
>>>ind 
array([3, 1, 0, 2], dtype=int64)

>>> [nm[i]  +  ", "  + dv[i]  for i in ind]
['amar, f.y.', 'anil, s.y.', 'raju, f.y.', 'ravi, s.y.']

4.numpy.argmax() 和 numpy.argmin()

這兩個函數分別沿給定軸返回最大和最小元素的索引。

>>>import numpy as np 
>>>a = np.array([[30,40,70],[80,20,10],[50,90,60]])  
>>>a 
array([[30, 40, 70],
       [80, 20, 10],
       [50, 90, 60]])

>>>np.argmax(a)  
7
 
>>>a.flatten()  
array([30, 40, 70, 80, 20, 10, 50, 90, 60])

maxindex = np.argmax(a, axis =  0)  
>>>maxindex 
array([1, 2, 0], dtype=int64)
 
maxindex = np.argmax(a, axis =  1)  
>>>maxindex 
array([2, 0, 1], dtype=int64)

minindex = np.argmin(a)  
>>>minindex 
5

>>>a.flatten()[minindex]  
10

minindex = np.argmin(a, axis =  0)  
>>>minindex 
array([0, 1, 1], dtype=int64)

minindex = np.argmin(a, axis =  1)  

>>>minindex
array([0, 2, 0], dtype=int64)

5.numpy.nonzero()

numpy.nonzero()函數返回輸入數組中非零元素的索引。


>>>import numpy as np 
>>>a = np.array([[30,40,0],[0,20,10],[50,0,60]])  
>>>a 
array([[30, 40,  0],
       [ 0, 20, 10],
       [50,  0, 60]])

>>>np.nonzero (a)
(array([0, 0, 1, 1, 2, 2], dtype=int64), array([0, 1, 1, 2, 0, 2], dtype=int64))

6.numpy.where()

where()函數返回輸入數組中滿足給定條件的元素的索引。


>>>import numpy as np 
>>>x = np.arange(9.).reshape(3,  3)  
>>>x 
array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.],
       [ 6.,  7.,  8.]])

>>>y = np.where(x >  3)  
>>> y 
(array([1, 1, 2, 2, 2], dtype=int64), array([1, 2, 0, 1, 2], dtype=int64))

>>> x[y]
array([ 4.,  5.,  6.,  7.,  8.])

7.numpy.extract()

extract()函數返回滿足任何條件的元素。

>>>import numpy as np 
>>>x = np.arange(9.).reshape(3,  3)  
>>>x 
array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.],
       [ 6.,  7.,  8.]])

# 定義條件 
condition = np.mod(x,2)  ==  0  
>>>condition 
array([[ True, False,  True],
       [False,  True, False],
       [ True, False,  True]], dtype=bool)

>>>np.extract(condition, x)
array([ 0.,  2.,  4.,  6.,  8.])
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章