python數據分析(一)重要的python庫

python數據分析(一)重要的python庫

簡單學習完python的基礎語法之後,我想進一步瞭解如何使用python進行粗略的數據分析。但是,再正式開始學習之前,我們需要對相關的python庫先展開一定程度的認識。
1、NumPy
NumPy(Numerical Python),是Python科學計算的基礎包,許多Python庫都是在它的基礎上構建出來的,主要擁有如下功能(不限於此):

  • 快速高效的多維數組對象ndarray
  • 用於對數組執行元素級計算以及直接對數組執行數學運算的函數
  • 用於讀寫硬盤上基於數組的數據集的工具
  • 線性代數、傅立葉變換以及隨機數生成

由此可見,NumPy庫的主要針對對象就是數組及其相應處理。實際上,它在數據分析方面還有另一個主要作用——作爲在算法之間傳遞數據的容器。對於數值型數據,NumPy數組在存儲和處理數據時,要比內置的Python數據結構更加高效。

2、pandas
pandas提供了使用戶能夠快速處理結構化數據的大量數據結構和函數,同時,它兼具NumPy高性能的數組計算功能以及電子表格和關係型數據庫(如SQL)靈活的數據處理功能。
而且,對於金融行業的用戶,pandas提供了大量適用於金融數據的高性能時間序列功能和工具。

3、matplotlib
matplotlib是目前最適合用於繪製數據圖表的Python庫,它和IPython的結合維用戶提供了一種非常好用的交互式數據繪圖環境,它幫助我們真正實現了數據的可視化。

4、IPython
IPython是Python科學計算標準工具集的組成部分,它的目的就是提高編寫、測試、調試Python代碼的效率。主要應用於交互式數據處理和利用matplotlib對數據進行可視化處理。
除了標準的基於終端的IPython shell以外,該項目還提供了:

  • 一個類似於Mathematica的HTML筆記本
  • 一個基於Qt框架的GUI控制檯,其中含有繪圖、多行編輯以及語法高亮顯示等功能
  • 用於交互式並行和分佈式計算的基礎架構

5、SciPy
SciPy是一組專門解決科學計算中各種標準問題域的包的集合,主要包括:

  • scipy.integrate:數值積分例程和微分方程求解器
  • scipy.linalg:擴展了由numpy.linalg提供的線性代數例程和矩陣分解功能
  • scipy.optimize:函數優化器(最小化器)以及跟查找算法
  • scipy.signal:信號處理工具
  • scipy.sparse:稀疏矩陣和稀疏線性系統求解器
  • scipy.special:SPECFUN(實現了許多常用數學函數(如伽馬函數)的Fortran庫)的包裝器
  • scipy.stats:標準連續和離散概率分佈(如密度函數、採樣器、連續分佈函數等)、各種統計檢驗方法以及更好的描述統計法

由於是第一篇,老規矩,我們先來看相關Python庫的安裝。實際上很簡單,因爲OS X操作系統內置了python3.7版本(如果沒有就先安裝一下),該版本內置了pip包管理器,所以直接打開終端,輸入命令pip install (庫名,如numpy),然後敲擊回車,等待下載完成即可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章