量化投資學習筆記05——檢驗計算回測指標程序

因爲對前面計算回測指標的程序的準確性還有疑問，我決定再驗證一次。驗證的方法是找一個帶數據的完整的程序，先實現其程序，再用它的數據和我的程序計算，對比一下二者的結果。
在知乎上找到一篇，https://zhuanlan.zhihu.com/p/55425806 是用貴州茅臺，工商銀行和中國平安三隻股票做回測。我照着其程序寫了，計算結果與文章中的一致。

接下來就用pyalgotrade框架和我自己的封裝來寫了。因爲pyalgotrade_tushare只能按整年進行數據抓取，把文章中的日期改爲到2018年12月31日(而不是原文中的2019年1月18日)。
但是用我的程序算那些指標還是與文章裏算的不對，尤其β值居然是0。我還是找現成的庫吧。
找了一圈，發現一個我能用的:empyrical。但是嘗試以後，發現還是有問題，如圖:

用pyalgotrade文檔裏的例子做測試，前面是pyalgotrade裏的回測結果，然後用其計算的收益率作爲輸入，用empyrical庫計算其它指標，最大回撤是一致的，αβ值不知道是否正確，夏普比率相差太多啦。
於是決定回到最基礎的辦法:自己編個數據，按照這些指標的定義手算，再用程序驗證吧。
本文以下參考《量化投資:以python爲工具》一書相關章節。
假設有股票test，初始價格爲1，每天漲1元，一共10天。基準指數base初始價格也是1，每天漲0.5元，一共10天。第一天各買入1股，計算每天的收益率。爲了保持一致，假定初始投入2.5元，再少pyalgotrade會報現金不足。
test.csv

Date,Open,Close,High,Low,Volume
2019-01-01,2.369,1.0,9,0,1877797.0
2019-01-02,2.358,2.0,9,0,4404445.0
2019-01-03,2.335,3.0,9,0,4834089.0
2019-01-04,2.27,4.0,9,0,1525888.0
2019-01-05,2.287,5.0,9,0,2050543.0
2019-01-06,2.28,6.0,9,0,3371288.0
2019-01-07,2.269,7.0,9,0,3701781.0
2019-01-08,2.255,8.0,9,0,4884821.0
2019-01-09,2.239,9.0,19,0,2509259.0
2019-01-10,2.253,10.0,19,0,3339884.0
2019-01-10,2.253,10.0,19,0,3339884.0

base.csv

Date,Open,Close,High,Low,Volume
2019-01-01,2.369,1.0,9,0,1877797.0
2019-01-02,2.358,1.5,9,0,4404445.0
2019-01-03,2.335,2.0,9,0,4834089.0
2019-01-04,2.27,2.5,9,0,1525888.0
2019-01-05,2.287,3.0,9,0,2050543.0
2019-01-06,2.28,3.5,9,0,3371288.0
2019-01-07,2.269,4.0,9,0,3701781.0
2019-01-08,2.255,4.5,9,0,4884821.0
2019-01-09,2.239,5.0,9,0,2509259.0
2019-01-10,2.253,5.5,9,0,3339884.0

計算中只用Close一列，最低最高價也修改了，其它的保持原狀，目的是使pyalgotrade框架能夠使用數據。
接下來從收益和收益率開始計算。
資產的收益率是指投入某資產所能產生的收益與當初投資成本的比例。
收益率=投資收益/投資成本
期間投資收益=期末價格-期初價格+其它收益
期間收益率=期間收益/期初價格
每天爲一期，爲了跟pyalgotrade框架一致，第一天決策，次日才交易。
test的收益率
第一天: 2.5-2.5/2.5 = 0.0
第二天: 2.5-2.5/2.5 = 0.0
第三天: 3.5-2.5/2.5 = 0.4
第四天: 4.5-3.5/3.5 = 0.2857142857142857
以此類推。
base的收益率:
第一天: 2.5-2.5/2.5 = 0.0
第二天: 2.5-2.5/2.5 = 0.0
第三天: 3.0-2.5/2.5 = 0.2
第四天: 3.5-3.0/3.0 = 0.1666666666666667
以此類推。
現在用python算一下。
先讀取數據

# 從文件中讀取數據
test_df = pd.read_csv("test.csv", index_col = "Date")
print(test_df)
base_df = pd.read_csv("base.csv", index_col = "Date")
print(base_df)
# 提取收盤價信息
test_close = test_df["Close"]
base_close = base_df[["Close"]]
# test_close.name = "Close"
# base_close.name = "Close"
print(test_close, base_close)
# 計算每日收益率
# 初始投資
cash_test = 2.5
cash_base = 2.5
# 每期市值
position_test = []
position_base = []
print(test_close.values[0], base_close.values[0])
for i in range(len(test_close)):
    if i == 0:
        position_test.append(cash_test)
        position_base.append(cash_base)
        continue
    elif i == 1:
        cash_test = cash_test - test_close[0]
        cash_base = cash_base - base_close.values[0][0]
    if cash_test <= 0 or cash_base <= 0:
        print("現金不足，退出")
    position_test.append(cash_test + test_close[i-1])
    position_base.append(cash_base + base_close.values[i-1][0])
  
print(position_test, position_base)
test_return = []
base_return = []
test_return.append(0.0)
base_return.append(0.0)
for i in range(1, len(position_test)):
    print(i, position_test[i], position_test[i-1])
    test_return.append((position_test[i] - position_test[i-1])/position_test[i-1])
    base_return.append((position_base[i] - position_base[i-1])/position_base[i-1])

計算結果

對了。接下來計算年化收益率
年化收益率是把當前收益率(日、周、月收益率等)換算成年收益率，方便投資人比較不同期限的投資。這只是理論上的收益率，並不是投資人真正能獲得的收益率。
持有T期收益爲Rt, 一年有m個單期，則年化收益率爲(Rt/T)*m
如果考慮複利，年化收益率=(1+Rt)**(1/(T/m))-1

# 計算年化收益率
np_test_return = np.array(test_return)
np_base_return = np.array(base_return)
annret_test = (1+np_test_return).cumprod()[-1]**(245/311) - 1
annret_base = (1+np_base_return).cumprod()[-1]**(245/311) - 1
print(annret_test, annret_base)
print("empyrical")
annret_test_ep = ep.annual_return(np_test_return)
annret_base_ep = ep.annual_return(np_base_return)
print(annret_test_ep, annret_base_ep)

結果
2.097306384013633 1.1227960188906434
empyrical裏有計算年化收益率的函數，試試。
5080215298974669.0 28663443858.08141
差別好大，感覺年化收益率蠻坑的，理財，保險等機構都喜歡用這個概念，先略過吧。後面用不到。
接下來看風險指標
首先可以用收益率的標準差來衡量。

#衡量風險
# 標準差
print(np_test_return.std(), np_base_return.std())

結果
0.11597007874921565 0.06111509424879022
前者的風險更大。
最大回撤，因爲我的數據就沒有回撤，而且幾個庫計算的最大回撤值幾乎一樣，就不自己寫了。用empyrical庫試試。

# 最大回撤
print(ep.max_drawdown(np_test_return), ep.max_drawdown(np_base_return))

結果都是0.0
現在來計算策略的α和β值，其來自資本資產定價模型(CAPM)，Rq爲資產組合的收益，Rf爲無風險資產收益，Rm爲市場資產組合收益(一般以大盤指數代表)，有如下關係:
E(Rq) - Rf = βqm(E(Rm) - Rf)
即，β值爲策略收益與無風險收益之差與和市場平均收益與無風險收益之差的比值。
βqm又等於σ(Rq,Rm)/σ²(Rm)，前者爲資產組合收益率與市場投資組合收益率之間的協方差，後者爲市場投資組合的方差，β值反映出投資組合的系統性風險。若β=1，則策略與市場的波動性是一致的，若β絕對值小於1，則策略的波動性小於市場，若β絕對值大於1，則策略的波動性大於市場。單隻股票的期望收益是無風險收益加上系統性風險溢酬。非系統風險可以通過分散投資消除。
將模型寫成不含期望值的形式:
Rit - Rft = α + β(Rmt - Rft) + ε
Rit,Rft,Rmt分別爲個股收益率，無風險收益率和市場收益率，對這些資料進行線性迴歸，可以得到α和β值的估計值。β值可以解釋個股過去收益率與風險的關係，根據這個模型，所有資產α值都應爲0，若顯著異於0，則個股有異常收益。Alpha值代表收益率勝過大盤的部分。

# 計算αβ值
# 先將兩個收益率合併到一起
Ret = pd.merge(pd.DataFrame(base_return), pd.DataFrame(test_return),  left_index = True, right_index = True, how = "inner")
print(Ret)
# 計算無風險收益
rf = 1.036**(1/360) - 1.0
print(rf)
# 計算股票超額收益率和市場風險溢酬
Eret = Ret - rf
print(Eret)
# 接下來進行擬合
model = sm.OLS(np_test_return, sm.add_constant(np_base_return))
result = model.fit()
print(result.summary())

計算結果，α爲-0.0279，β爲1.8462，再用empyrical算一遍。

print("empyrical")
alpha, beta = ep.alpha_beta(np_test_return, np_base_return, 0.036)
print(alpha, beta)

計算結果
0.8273048650075308 1.8426052351694182
還是相差很多。β值很不確定，同一股票不同時期的β值相差很大。用歷史數據計算β值，對投資的指導意義不大。所以，也許可以不用再糾結了。
最後算夏普值。
夏普比率就是一個可以同時對收益與風險加以綜合考慮的三大經典指標之一。投資中有一個常規的特點，即投資標的的預期報酬越高，投資人所能忍受的波動風險越高；反之，預期報酬越低，波動風險也越低。所以理性的投資人選擇投資標的與投資組合的主要目的爲：在固定所能承受的風險下，追求最大的報酬；或在固定的預期報酬下，追求最低的風險。
。理性的投資者將選擇並持有有效的投資組合，即那些在給定的風險水平下使期望回報最大化的投資組合，或那些在給定期望回報率的水平上使風險最小化的投資組合。解釋起來非常簡單，他認爲投資者在建立有風險的投資組合時，至少應該要求投資回報達到無風險投資的回報，或者更多。
夏普比率目的是計算投資組合每承受一單位總風險，會產生多少的超額報酬。夏普指數代表投資人每多承擔一分風險，可以拿到幾分超額報酬；若爲正值，代表基金報酬率高過波動風險；若爲負值，代表基金操作風險大過於報酬率。這樣一來，每個投資組合都可以計算Sharpe Ratio, 即投資回報與多冒風險的比例，這個比例越高，投資組合越佳。夏普比率沒有基準點，因此其大小本身沒有意義，只有在與其他組合的比較中才有價值。

# 計算夏普比率
sharpe = (np_test_return.mean() - 0.03)/np_test_return.std()*np.sqrt(252)
print(sharpe)

結果
17.79285680812303
再用empyrical算一次
16.879786078470694
兩個結果是基本一致的。
接下來，就再用pyalgotrade回測一下吧。
代碼我就不往上放了，只放結果。

還是有差異。尤其是α和β值。看了一下代碼，在pyalgotrade的回測代碼裏增加了輸出，發現成交價是2.36元，不是我想的2.0元。是因爲這個原因嗎？唉，不糾結了，就這樣吧。用pyalgotrade回測算收益率、投資收益、夏普值、最大回撤等，用empyrical算α和β值。
本文代碼：
https://github.com/zwdnet/MyQuant/tree/master/05
自己算指標在index.py裏，用pyalgotrade回測在pyat_index.py裏。

量化投資學習筆記05——檢驗計算回測指標程序

量化投資學習筆記27——《Python機器學習應用》課程筆記01

量化投資學習筆記20——迴歸分析:實操，泰坦尼克號乘客生還機會預測，邏輯迴歸方法。

量化投資學習筆記36——《Python機器學習應用》課程筆記09

量化投資學習筆記37——《Python機器學習應用》課程筆記10

量化投資學習筆記34——《Python機器學習應用》課程筆記08

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結