學習python pandas 之初步瞭解

import必要的模塊

首先要把需要的模塊導入。

還需要按tushare的要求配置好token.

# 按文檔的要求導入token
import pandas as pd
import matplotlib.pyplot as plt
import numpy.random as np
import sys
import tushare as ts
import os
plt.style.use('ggplot') 
plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus']=False #用來正常顯示負號
%matplotlib inline
# 獲取pro_api
ts.set_token('ff1c72d52ac8c2554ba6ada1137610364ff28d781')
pro = ts.pro_api()
# 獲取數據,以上市公司基本數據爲例
sb = pro.stock_basic()
# 測試一下數據導入成功
sb.describe()
sb.dtypes
ts_code      object
symbol       object
name         object
area         object
industry     object
market       object
list_date    object
dtype: object

統計每個省的上市公司數量,並且排序

完成這個任務只需要一條命令。

#figsize參數用來解決圖的大小比例問題。
#value_counts方法可以把一個系列統計計數並按降序排列。
byarea = sb.area.value_counts()
byarea.plot(kind='barh', figsize=(10,15), title='listed company by area')

可以看出來,沿海地區省份上市公司數量較多。少數民族地區上市公司就很少。

統計每個行業的上市公司數目

統計結果居然是軟件服務業數量很多,有必要分析一下各板塊的上市公司數量。

byindustry = sb.industry.value_counts()
byindustry.plot(kind='barh', figsize=(10,25), title='listed company by industry')
## 統計每個板塊的上市公司數量

bymarket = sb.market.value_counts()
bymarket.plot(kind='pie', figsize=(10,10), title='listed company by market')

統計每年的上市公司數目,並且按年份排列

由於數據導入時,每個公司的上市日期都是object類型,需要將其先轉換成爲datetime類型。

#make the list_date colume into a dt object
sb.list_date = pd.to_datetime(sb.list_date)

# 創建一個新列,名字爲year,數據從list_date中利用dt.year屬性來取。
sb['year'] = sb.list_date.dt.year

# sort_indext()把數據按照index排列,而不是默認的按降序來排列。
byyear = sb.year.value_counts().sort_index()
byyear.plot(kind='barh', figsize=(10,15), title='Listed Number Per Year')

可以看出來,2017年真的是厲害啊,怪不得發那麼多錢,但沒有明顯的通貨膨脹。應該說,一般大規模上市之後,市場要低迷一陣子。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章