冠軍/挑戰者試驗,一個數字遊戲

自動化決策與冠軍/挑戰者試驗

自動化決策最有價值之處在於可以迅速的根據業務變化改變底層的決策邏輯。這些業務變化可能來自於監管的調整、競爭壓力或單純的商業機會。決策的修改需要有測試同步跟進——畢竟在不能確保決策能被正確執行的情況下貿然改變部分業務模式是不明智的。然而,測試有時候並不那麼充分有效。測試顯然是必要的,但也有其侷限性。當出現很多無法掌控的未知項時,如何對決策邏輯進行測試?

我們需要的測試有時更類似於不同策略之間的比較。我將要討論的這種技術開創於幾十年前,但目前還未被廣泛應用。這種技術被稱爲冠軍/挑戰者試驗。

爲什麼使用冠軍/挑戰者試驗

你是否曾經嘗試使用過冠軍/挑戰者試驗?或者聽說過A/B測試——其主要目標是比較一個既定的策略(冠軍策略)與一個或多個備選方案(挑戰策略)。這種試驗已經在網站設計中被反覆使用。試驗目標可以是行爲召喚(Call-to-Action)的不同強調方式,或者甚至是在幾個網頁上改變措辭,來測量哪個版本效果最好。 雖然它是網頁設計的常規方法,但並未被廣泛應用於決策。你也許會問爲什麼?我的猜測是,許多公司都不清楚如何設置它。我見過有的公司在使用這項技術的時候,因爲錯誤的設置,導致試驗的失敗。

簡要解釋一下這種試驗應用於決策管理的基本理念。就如網頁設計上的應用,決策管理試驗旨在比較現實場景中的不同選擇。基本原理是:在沙盒中進行的測試和模擬可以衡量一個決策的實際業務表現(例如批准信貸額度),但不能預測將來的人們會如何反應;模擬只會告訴你在你的歷史樣本中有多少人會被通過或拒絕;你可以採用某種劃分人羣的方法,但隨着時間的推移,會發現這部分人會因爲高違約率表現很差;而現實場景的試驗允許制定實際的決策,然後隨時間推移,評估這個樣本的商業行爲。

冠軍/挑戰者試驗是如何運作的

從技術上來說,生產場景需要可以部署兩套或更多的決策服務。由於你的系統不能對同一項目既通過又拒絕,因此需要在結構上將交易隨機分派到某一策略上,並對這些交易進行標記監控。這裏的關鍵詞是“隨機”,你的設置在對分類交易時要做到沒有任何偏見。但是需要說明的是,通常情況下我們也會先行排除一些由於戰略價值(例如VIP客戶),或者因爲一些業務規則(例如禁止未成年人等)所分出來的類。你的設置將決定多少比例的交易將進入冠軍策略,比如說50%,多少比例會作爲挑戰策略進行測試,比如說2個挑戰策略各25%。

當你需要測試決策的多個部分時,設置會變得較爲複雜。在這裏不做細節描述。可能會在後續的文章中做跟進。我只是想強調在複雜情況下,實驗完整性是很重要的。

一旦部署好試驗,你需要等待一段時間,才能得出結論:哪一個策略是“冠軍”——這意味着此策略優於其他策略。此時,由於確認了冠軍策略,你可以推廣使用這一策略,並可以開始一個新的測試。

這是一個數字遊戲

你每天例行爲每個策略分配一個百分比。在之前的例子中,我們設置過分配給冠軍策略50%,另外兩個挑戰策略各25%。 爲了使績效指標統計相關度更高,需要有足夠多的數據。如果您的系統程序一天只有十幾個交易進行測試,那將需要很長時間纔能有足夠的交易量分配給每個挑戰策略。如果你想一次性測試更多的挑戰策略,不確定性會變得更高。另一方面,如果系統每天處理數百萬的交易試驗將更快的得到結果。

所以,基本上,你最終有三個方面需要考慮:

每天的交易數量
需要考慮的策略數量
試驗運行的時間量

只要這三方面的量能達到比較充足的水平,就可以從試驗中得到比較好的結果。

僅僅是數字,或許還不夠

試驗得出結果就足夠了嗎?不完全是。雖然可以從這些試驗測試中得出一些結果,但做爲專家,還需要能夠讓這些數據更加符合邏輯。如果你進行了一個12月份整月的零售試驗,那麼最優策略是否也適用於其他沒有節假日的月份,這是不能明確的。如果你的違約通常發生在賬戶開放後的2個月或3個月,那麼僅僅是短期的試驗將無法得出正確結論。儘管並行測試多個策略的概念非常簡單,不過還是推薦在參數設置上聽取專家的建議,並利用常識來判斷需要哪些來證明一個策略實際上的確是優於其他選擇的。

一旦使用這種技術,你的業務績效將能得到極大提升。冠軍/挑戰者試驗的確是一種非常強大的工具。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章