軟件性能工程(9)-使用置信區間量化應用程序啓動時間

引言

指標量化是所有優化工作開展前首要確認的事情,只有當指標量化方法確認之後才能定義優化目標。

行業最普遍的做法是通過計算一組響應時間的算數平均值來量化響應時間,這種做法雖然簡單但平均值受異常值的影響非常大。這種結果往往會誤導優化方向因爲偶然出現的異常值會使數據失真。

爲了避免這種情況本文中採用置信區間進行響應速度的量化與比較。

「我們認爲置信區間工具能夠有效的量化響應時間(完成時間),其主要的貢獻來自於考慮了異常值的存在及出現概率。」

置信區間(Confidence interval)

置信區間詳細的解釋在此鏈接,如果大量數學公式使你迷惑的話你只需要記住「如果樣本分佈符合 t 分佈且滿足若干個前提條件時可以使用置信區間量化響應時間」

t 檢驗假設前提條件是:

  1. 代表性:兩組樣本代表他們各自的總體。如果樣本無法代表總體則無論採用哪種統計手段都無法彌補。這條前提看似簡單但往往也容易忽略

  2. 獨立性:兩組樣本彼此不相關

  3. 正態性:兩組樣本基本滿足正態分佈

  4. 方差齊性:兩組的方差大致相等(標準差)

使用置信區間可以計算單個樣本集的響應時間又可以對比不同樣本集間的差異,特別是在量化優化提升時非常有用。以下分別展示通過使用置信區間工具分析單個響應時間與比較兩組響應時間的差異。

使用置信區間分析單個樣本集響應時間

以下爲部分輸出結果

Software Version: 110038382Build
Measured Data: 2460ms, 2430ms, 2471ms, 2416ms, 2373ms, 2627ms, 2492ms, 2504ms, 2503ms, 2523ms
Arithmetic mean: 2479.9ms Gemotric mean: 2479.04ms  Median: 2481.5ms
Mode: 2373.0ms  SD: 69.31 CV: 0.03ms  SampleSize: 10
Confidence: 95% 2 T-Distribution  Range: 2440.96ms ~ 2539.84ms Volume: 98.88ms

表示有 95%信心確認 110038382Build 版本的響應時間範圍會處在 2440.96ms 到 2539.84ms 之間。

使用置信區間對比多個樣本集響應時間

以下爲部分輸出結果

Software Version: 110038382Build
Measured Data: 1240.650ms, 1076.644ms, 1073.136ms, 1089.155ms, 1069.663ms, 1073.757ms, 1068.990ms, 1075.755, 1064.660ms, 1095.025ms
Confidence: 95% 2 T-Distribution  Range: 1061.32ms ~ 1133.12 ms Volume: 71.8ms

Software Version: 110038634Build
Measured Data: 1238.555ms, 1246.591ms, 1245.808ms, 1232.166ms, 1231.308ms, 1234.580ms, 1240.009ms, 1221.805ms, 1226.612ms, 1229.983ms
Confidence: 95% 2 T-Distribution  Range: 1230.72ms - 1242.21ms Volume: 11.49ms

Diversity Percent 100.000% Range: -179.35ms ~ -104.65ms Volume: 74.7ms 表示有 100%信心確認兩個樣本集有差異並且版本 110038382Build 響應速度會快於版本 110038634Build

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章