A/B測試執行時間多長效果最好

本文長度爲5174字,預估閱讀時間12分鐘

引言:本文通過幾個方面來展示如何執行A/B測試已達到最好效果。

譯者 | Nic

審校 | Sarah

編輯 | CiCi

A / B測試恐怕是有史以來最有爭議的營銷策略之一。每個人對其是否有效都有自己的意見。

我的看法是,如果所採用的方法不當,會浪費時間;但如果方法得當,它對轉化可以產生很大影響。

現實是隻有28%的營銷人員對轉化率感到滿意,這個數值看上去可不那麼樂觀。但好消息是,如果正確理解了如何有效地進行A / B測試,那麼提高轉化率將指日可待。

問題在於,許多營銷人員不確定A / B測試應該執行多長時間,甚至不知道如何設置才能獲取準確的結果。

謝天謝地,這一切並不是完全無跡可尋。許多人已經從A / B測試中受益,我們可以從他們的成功中學習。此外,還有一些工具可以幫助您完成大部分工作。

接下來將介紹A / B測試應該運行多長時間,同時提供一些簡單有效的規則,以幫助您每次都能獲得準確的結果。

https://www.youtube.com/embed/HxBAeweP6Fs?feature=oembed

A / B測試真的可以提高轉化率嗎?

▲▲▲

讓我們從頭開始吧。 那麼,到底什麼是A / B測試?

A / B測試只是一種比較兩個不同概念的方法,看看哪個更好。

以下是來自於Optimizely的一個簡單A / B測試示例。

A / B測試有助於針對網站、應用或期望改進的任何內容來源的更改需求,提出正確的問題。

更重要的是,它讓受衆來給出答案。

它也不是一個新概念。 事實上,A / B測試實際上已經存在了近100年。

在農業方面,農民通過不斷嘗試比較,以瞭解在田地上使用多少肥料最爲合適;更近代來說,它以臨牀試驗的形式進入醫學領域。

那對我們有什麼好處?

首先,A / B測試提供了支持假設的數據,避免漫無邊際的猜測。

我們相信沒有一個財務部門在設定和預算方面會喜歡這樣的猜測。

看看這個例子,通過簡單地添加常見問題解答,一些統計數據和一些社會證據,網站kiva.org的轉化率提高了11.5%。

你看,只要付出小小投資就可以得倒正向的回報了。

甚至奧巴馬總統的競選也使用了A / B測試。 他的團隊分開測試他們的競選網站,他們收集到了280萬個電子郵件地址。這轉化爲大量的競選資金(達到6000萬美元)。 當選舉日終於結束時,證明他們的競選活動取得了巨大成功。

既然這麼有效,爲什麼沒有更多的營銷人員採取行動?

在許多情況下,營銷人員根本不把它作爲優先事項來考慮。

儘管大多數網站通過A / B測試增加了13.2%的響應,但61%的營銷人員沒有測試主題行。 即使在執行了這一測試的人羣中,74%的人所花的時間還不到一個小時。

他們錯誤地認爲改變只會提供微不足道的結果,只因爲他們沒有衡量正確開始所需要的事項。

實際研究表明,A / B測試爲B2B網站創造了多達40%的潛在客戶,爲電子商務網站創造了25%的潛在客戶。

一些企業不進行A / B測試也有一個很好的理由:他們知道他們還沒準備好做。

現實情況是,並非所有企業都處在適合執行A / B測試的時機中。 那麼,怎麼能確定是否準備好了?

如果轉化量低於每月1,000,測試結果無太大統計學意義,暫時還不是恰當的時機。

當轉化量達到了每月1,000以上,這時可以放心地開始A / B測試。

我們將在本文後面深入探討。

如果測試已經進行了一段時間,但是覺得努力沒有得到應有回報,那麼可以從以下幾點查看A / B測試失敗的可能原因:

  • 從錯誤的假設開始。
  • 沒有考慮統計意義。
  • 實驗中沒有足夠的轉化來驗證有效性。
  • 測試執行的時間太短。
  • 以下來說說如何預防這四個破壞因素,以確保A / B測試不是白費時間。

進行調研

▲▲▲

在開始任何其他事情之前,就需要決定測試的內容。

每個好的實驗都於“有思考”的假設開始。 A / B測試也不例外。

不幸的是,許多網站所有者都依賴“直覺”進行測試,而不是根據數據和深思熟慮的假設進行測試。

2014年的餅圖顯示了電子商務公司選擇實施新變化的方式。

正如將在本文的其餘部分中看到的那樣,案例研究證明了A / B測試的強大功能。對任何人來說都沒有任何藉口了。

你可自行運行精準測試,並根據數據反饋實施響應更改。

首先,看看哪些不適合你的公司。 是缺乏轉化? 還是新的電子郵件註冊數太低?

現在,將這些不足轉化爲可實現的目標,使其具體和可衡量。

接下來,看看您的買家角色。 如果有一段時間沒有看過它們,是時候認真檢視一下了。

如果你還沒有創建買家角色,不用慌張。

HubSpot提供了一個簡單的模板,有助於開始使用角色庫。

仔細研究手中有關受衆的信息,從客戶體驗角度上,分析有哪些地方不夠友好。

要從花費大量精力而建立起的內容中找到故障並不容易,但這一步非常重要。

嘗試與部分受衆一起,進行一個5秒鐘的測試,看看會產生什麼樣的啓發。

一旦對如何改進有了更好的瞭解,把假設寫在紙上。

將注意力集中在可以實際改變的事物上。Wishpond建議使用以下三個步驟:

  • Step1: 轉化問題 - 爲什麼人們不願意被轉化 Step2: 潛在解決方案 - 什麼樣測試可能解決問題 Step3: 影響聲明 - 預測解決方案會對轉化產生什麼樣的影響
  • 到這,一個有效的A/B測試假設基本成形了。

也許做出假設不是問題,它引導你關注優先級最高的問題,從而幫助你確定首要測試任務。

Conversion XL有一個非常好的優先級工作表,有助於決定在哪裏集中精力。

既然假設已有,是時候開始測試了。

統計顯著性是關鍵

▲▲▲

統計顯著性反映了所測量變量帶入的風險等級,也是對你作出選擇的信心指數。

根據Optimizely的說法,“統計顯著性是一種在數學上證明某個統計量是可靠的方法。 當根據正在運行的實驗結果做出決策時,需要確認它們之間確實存在相關性。“

要獲得有意義的數據關係的結果,請堅持運行測試,直到達到95%-99%的統計顯著性,這意味着對結果有效率有95%-99%的信心。

ConversionXL上有個例子。

從數據中可以看出,一開始變量1(Variation1)似乎是一個失敗的命題。 但當測試執行達到95%的統計顯著性時,結果開始完全不同,變量1(Variation1)贏得了超過25%的領先。

如果測試提前終止,整個結果就可能會完全不同,而測試也就失去了意義。

這是在線網站建設公司BaseKit的另一個例子。

由於他們的大部分流量都是付費的,因此他們可以安全地假設他們的受衆對他們的產品有着獨特的興趣。 因此,他們將測試重點放在定價頁面上也是有道理的。

他們在24小時內達到了95%的統計顯著性,通過重新設計定價頁面,總體轉化率提高了25%。

這些工具幫助你減少花在確定統計意義的功夫。

如果在某些時候您想要運行的不僅僅是分離測試(僅比較兩個變量),那麼此工具允許您添加儘可能多的變量,以分析每個變量的重要性。

只需輸入訪問者數量和變量的總體轉化次數,該工具就會比較兩種轉化率,來告訴你測試是否具有統計意義。

如果統計顯著性達不到95%,請繼續測試。

需要再次強調:即使達到你認爲具有足夠統計意義的水平,也不能放棄;在達到95%之前永遠不要停止,最終目標是99%統計顯著性。

其他任何東西都只是不靠譜的猜測。

達到統計學意義並不是成功進行A / B測試的唯一因素。 樣本量也會對結果產生巨大影響。

樣本量也很重要

▲▲▲

樣本量或轉化池太小,都會造成誤差幅度的增加。道理不難理解,對吧?

這樣想吧:假設有一袋100個軟糖,我們想看看是否有可能從袋中取出各不同味道的軟糖。

隨機拿了三個軟糖,三個都是甘草味的。如果就只用這三個軟糖來預測拿出其他味道甘草軟糖的可能性,結果不太會很準確。

假設整個袋子裏可能只有四到五個甘草味軟糖,而恰好都被取出了;但事實也有可能其中一半是甘草味,另一半是櫻桃味的。

無論情況如何,如果只使用這三個軟糖來假設我們取出更多甘草味軟糖,其機率會遠高於實際值。

又或者,如果我抽出三個都是山豆果味的,沒有一個是甘草,就可能錯誤地認爲永遠不會從袋子中取出甘草味的。

這是兩個不同的假設,都是錯誤的,因爲測試的樣本量太小,無法得出合理的結論。

那麼,測試所需要的轉化次數或個體數量多少纔是合適的?

顯然,我們不能一概而論,具體需要取決於總訪問次數和轉化次數。但是,一個比較普遍採用的指南是在實驗中至少有1,000個的個體數(或轉化,客戶,訪客等),以便克服樣本污染達到正常工作。

一些營銷專家甚至建議樣本量爲5,000人。

請記住,如果您正在運行A / B測試(兩個變量),樣本量會被平分。你不會想要低於500個的樣本量來進行測試,對吧?

在A / B測試中,很容易被忽略的另一個考慮因素是需要確保樣本受衆實際上代表轉化領域中的每一個個體。如果不小心產生樣本污染,結果將會不準確。

以下是樣本污染的常見示例:

許多訪問者是通過桌面電腦,平板電腦,筆記本電腦甚至是電視機來訪問你的內容。

他們從不同的設備訪問你的網站和內容。

如果將每一次的訪問都包括在數據中(就好像他們是唯一的訪問者),這就會引入設備污染:同一訪問者被多次重複計算。

有其他因素需要考慮,例如使用相同設備的不同用戶,公共訪問的計算機等。 關鍵在於,當可能涉及到樣本污染帶來的弊端時,需要全面考慮並提前做好準備。

該怎樣做呢? 一種方法是針對特定設備和瀏覽器單獨運行A / B測試。

當然,這需要更長的時間才能達到健康有效的樣本量。但是這麼做的樣本量將更準確。

如果仍然不確定你應該有多大的樣品量,Optimizely有一個簡單的計算器,可以用來幫助你確定理想的樣本量。 它甚至考慮到統計意義!

現在,讓我們來看看A / B測試的核心,測試執行多長時間纔是合理的?

足夠的耐心永遠不會錯

▲▲▲

營銷人員經常會錯誤地過早結束他們的A / B測試,因爲他們認爲已經知道了答案。如果草率得出哪種變化將“勝出”的結論,結果會被扭曲,測試因此無效。

靜下心來想想。

如果答案那麼顯而易見,進行測試還有什麼意義? 一個真實有效的測試,必須讓整個過程發揮作用。

還記得我們關於統計意義的討論? 關鍵是:始終堅持95%+規則,在達到那個水平之前不要停止你的測試。藉助於工具來幫助您查看統計顯著性的位置,靜待最佳時機的來到。

現在讓我們談談時機。

爲了保證數據的真實性,理想情況需要至少運行兩週的測試。爲什麼? 轉化和網絡流量會因爲幾個關鍵變量而有很大差異。

Conversion XL提供了這些數據。

週四的轉化率遠高於週末。 在這種情況下,短於一週的測試將嚴重扭曲結果。

通常,您應該測試至少七天,確保達到統計顯著性,然後再測試七天。

在數據方面,更充分的數據總是更好。 在開始時將測試時間考慮在您的A / B計劃中,避免感到倉促或想要過早地縮短它。

我們可以進行超過兩週的測試嗎? 當然!

看看TruckersReport的例子。這是他們原來的網頁:

乍一看,似乎沒有任何不妥。 但沒有得到想要的反饋,而且轉化率低於爲12%。

現在將其與修改後的設計進行比較:

通過採用新的頁面佈局,他們的轉化率達到了79.3%。

驚訝吧,這是如何做到的?

首先,他們沒有將他們的A / B測試視爲“一勞永逸”。他們在六個月的時間裏共進行了六次迭代測試。同時他們確保不僅具有95%以上的統計顯著性,而且也追蹤每一個不同的流量模式,無論卡車司機們使用何種設備進行訪問。

另一個因爲耐心等待而得到回報的例子。 Copy Hacker在他們的主頁上進行了A / B測試。

在前幾天,沒能得出任何結論。 在第六天之後,統計顯著性達到了95%。 這時也許你會停下來,

但他們沒有。

由於還不夠一週,他們又堅持進行了另一天的測試。 這時他們取得了完全不同的結果,創造了近24%的轉化次數。 等待額外的一天,顯著性水平從95%上升到99.6%。

耐心得到了回報。

但是,如果時間被拖延(在這裏指的是幾個月,而不是幾天),你該怎麼做?

當所有步驟都已完成,但沒有明顯的決定因素時,需要考慮使用一組新的變量重新開始。

convert.com 上有一個很棒的A / B測試持續時間計算器,可幫助您確定運行測試的時間,以保留數據的完整性。

它不僅考慮了現有的轉化率,還使你有機會直接針對花費了大量時間構建的智能、可衡量的假設展開測試。

結論

▲▲▲

在營銷領域中,你可能會看到有關A / B測試的截然不同的觀點,但很難對在本文中展示的組織機構所取得的成果提出質疑。

有些組織完全忽略了A / B測試。公司通常只會在經過一些看似浪費時間的錯誤測試後決定走這條路。

不要讓你也成爲這樣的。不要因爲組織中的一些反對者,錯失可靠的A / B測試帶來的轉化率提升和有效數據。

如果從未嘗試過A / B測試,那麼是時候開始了。

你並不孤單。先行者已經完成了大量基礎工作和早期實驗。

並且計算器都可以在正確數量的基礎上幫助你增加合適因素,最終你的A / B測試幾乎可以確保轉化率提升。

只需記住A / B測試的“三大顯著”因素,並在測試過程中從頭到尾堅持下去:

建立正確的假設 - 避免無根據的猜測或直覺。

不隨意中斷,直至達到95-99%的統計顯著性。

確保樣本量足夠大(例如至少1,000次轉化)。不要過早停止運行測試。目標爲1-2周。

根據我在A / B測試中的實際經驗,如果必須用四個字總結最好的建議,我會這樣說:精準,耐心。

哪些A / B測試技巧爲您帶來了轉化中最大的提升?

關於作者

Neil Patel, 他是紐約時報最暢銷的作家。 華爾街日報稱他是網絡中的頂級影響者,福布斯稱他是十大營銷人員之一,而企業家雜誌稱他創造了100家最傑出的公司之一。 他被奧巴馬總統評爲30歲以下的前100名企業家,並被聯合國評爲35歲以下的前100名企業家。

譯者簡介

Nic, 尼克周,混跡IT行業十多年,仍然不會編程。經歷過傳統製造業、傳統廣告媒體,也涉足於新媒體傳播及新興電商平臺。目前在某外資銀行從事項目管理工作。興趣愛好比較繁雜,對心理學和行爲以及數字分析較有興趣。

審校簡介

Sarah, 廣告人一枚,iCDO原創及翻譯志願者。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章