使用假設檢驗分析PS4,XBox,Switch 誰是最好的遊戲主機


在索尼準備推出PS5的時候,微軟絞盡腦汁想辦法在下一款遊戲機的名稱中加入字母“X”,現在是回顧第八代視頻遊戲機的好時機,我們來嘗試使用假設檢驗判斷哪一款遊戲機,可以說是“最好的”。

索尼在2013年推出的PS4銷量超過了1.1億臺(XBox One在同一時間段內的銷量令人失望,達到了4700萬臺,而Switch在2017年發佈後的銷量也達到了5500萬臺)。當然,這些統計數據對消費者的影響很小,我們只能假設,消費者對遊戲機的商業性能的關注程度,不如他們對遊戲質量的關注。但我們如何判斷遊戲的質量呢?正如這句話所說:蘿蔔青菜,各有所愛。

克服主觀性是本篇文章的主旨。特別是我們將依靠遊戲的“元臨界分數”來衡量遊戲的“內在質量”。需要提醒的是,元評分(MetaScore)是給定標題的所有可用評論評分的加權平均值,並“根據其質量和總體地位”給予某些評論員額外的權重。因此,我們用於此分析的數據集是通過MetaCritic網站生成的(https://www.metacritic.com/about-metascores)

我們抓取了以下的數據:

  • 我們在三個主機(PS4、XBox One和Switch)上的13334個條目。

  • 許多遊戲沒有指定元分級。產生的原因是沒有足夠的評論來聚合一個評論。

  • 同一遊戲對於其上可用的每個主機都有不同的內容。

  • 給定遊戲的元評分可能會有很大的變化,這取決於評論所針對的主機。

衡量兩個遊戲機中哪一個最好的最公平的方法是隻檢查出現在兩個主機的遊戲。事實上,如果我們看一下每個主機上可用遊戲數量的文氏圖( Venn diagram),我們會發現它們之間存在着明顯的重疊——特別是PS4和XBox One之間(技術上更爲相似,並且幾乎同時發佈)。

非獨佔遊戲

假設我們想調查一下,對於PS4和XBox One上都有的遊戲,哪個版本更有可能獲得更好的元得分。要做到這一點,我們首先分離至少有這兩個主機的元分數的標題,然後,在一個遊戲的基礎上,從另一個遊戲機中減去一個遊戲機的分數(在本例中,從XBox one中減去PS4)。


讓我們使用seaborn的KDE圖可視化這些分數差異


我們可以看到,與PS4相比,遊戲在XBox One上的總分平均略高。話雖如此,差距似乎很小(平均略高於1分),而且幅度相當大,兩邊都是平均值。綜上所述,我們能否得出結論,主機之間的平均差異是顯著的?這聽起來很像假設檢驗的依據,所以讓我們想想這樣的檢驗可能是什麼樣的。

如果我們試圖證明一個遊戲在一個主機上的元得分與另一個主機上的元得分之間存在顯著差異,那麼我們需要拒絕它們之間沒有差異的假設。

一個稍微微妙的點將有助於告訴我們如何進行-雖然我們已經抓去了整個元批評,但是我們仍然在處理一個遊戲樣本,而不是一個羣體(我們分析的時候排除了沒有元得分的遊戲,因此,根據定義,正在使用兩個主機上可用的所有遊戲的子集)。

在總體水平上,一個遊戲在任何兩個遊戲主機上的平均分差確實是零。當然,流行度的平均值是0。爲了證明兩個主機之間存在顯著差異,我們需要證明我們的樣本絕大多數不可能是從假設的零均值總體中提取的。

這是幾乎任何一個樣本假設檢驗的邏輯基礎,但是當我們解釋結果時,從第一原則考慮這些問題(而不是盲目地將數字插入公式中)是有用的,並且將有助於確保我們得出正確的結論。回到手頭的問題-我們現在可以陳述我們的無效和可選假設:

H₀:主機之間的平均差異=0

Hₐ:主機之間的平均差異≠0

下一步是定義我們的α(當我們不應該拒絕H₀時,我們拒絕H₀的可接受概率)。0.05對大多數人來說是一個足夠好的α,所以對我們來說已經足夠好了。換言之,如果我們真的拒絕H₀,那麼我們這樣做的錯誤機率只有5%。

要確定是否可以拒絕H₀,我們現在需要創建“T-Statistic”,它由以下公式給出:


其中x是樣本均值,μ是總體均值,s是樣本標準差,n是樣本量

我們可以將其與T分佈(具有適當的自由度)進行比較,並繪製出T-Statistic,這裏顯示爲一條垂直紅線。這個T-Statistic產生一個p值,相當於紅色T-Statistic右邊T分佈下的面積。

XBox One對PS4。藍色曲線下總共有5%的區域是粉紅色的,這反映了我們選擇α=0.05。

我們可以從視覺上看到,我們的p值將遠遠低於α閾值0.05。由此,我們可以拒絕無效假設並得出結論,對於同時出現在PS4和XBox One上的遊戲,xboxone版本更可能具有更高的元臨界分數。

順便說一下,我們可以遵循完全相同的過程來表明:

遊戲在XboxOne上的得分要明顯高於switch。


與Switch相比,遊戲更有可能在PS4上獲得更高的分數(儘管在這種情況下,對空假設的拒絕要少得多)。

獨佔遊戲

所以我們能得出結論,XBox One是最好的第八代遊戲機嗎?我們實際上忽略了數據集中一半的作品。事實上,如果我們調查PS4的前十個元得分,我們會發現其中有七個是主機獨佔(因爲它們在XBox或Switch上都不可用)。

同理,任天堂Switch的前十大遊戲中有一半在XBox或PlayStation上找不到…

XBox one前十名中只有一款遊戲是獨佔的。

PS4和Switch擁有最好的獨佔性的這一觀察似乎得到了證實——Switch的獨佔性的平均得分最高,而XBox One的得分最低

我們怎樣才能更嚴謹地得出這個結論呢?我們處理的是樣本,而不是種羣。儘管我們的數據集包含了許多現有的主機獨佔遊戲,但有些遊戲沒有元得分,因此被排除在分析之外。

我們再次採取假設檢驗的方法。如果我們想證明主機A排他性比主機B上的排他性高得多,我們需要以某種方式拒絕一個陳述相反情況的無效假設:

H₀:主機A排他性的平均得分≤主機B排他性

Hₐ:主機A排他性>主機B排他性的平均得分

注意,雖然先前測試中的無效假設檢驗了兩個總體平均值是否相同,但這裏我們假設了一些稍有不同的情況-一個總體平均值要麼與另一個相同,要麼小於另一個。這意味着我們將進行“單尾”測試。

我們還需要記住一些其他事項:

  1. 樣品有不同的大小(例如PS4有1675獨佔遊戲,而XBox只有854個)

  2. 樣本的總分有不同的標準差

  3. 不明顯的是樣本是從正態分佈中提取的-它們的KDE圖看起來都是負偏斜的

韋爾奇T檢驗是我們常規T檢驗的一種變異,它能更好地處理不同大小和變異的樣本。但是,它仍然假設數據是正態分佈的。如果我們得出結論,我們的樣本不是從正態分佈總體中提取的,那麼我們應該轉向非參數方法,例如排列測試。

如果我們在專業的背景下處理這個問題,我們可以運行Kolmogorov-Smirnov檢驗來對樣本的正態性做出明確的決定。爲了便於說明,讓我們暫時忽略這一點,嘗試兩種方法,看看我們得到了什麼結果。

我們看到參數和非參數測試在每種情況下都返回幾乎相同的p值。事實證明,對我們的樣本進行Kolmogorov-Smirnov檢驗表明,它們確實不太可能來自正態分佈的人羣

總結

從假設測試中我們可以得出的結論是,XBox One在三款遊戲機中的主機獨佔遊戲絕對是最差的。雖然Switch的排他性得分高於PS4的平均分,但這一差異似乎沒有統計學意義。

因此,決定一個“獲勝”的第八代遊戲機取決於你作爲玩家需求,尤其是你看重的遊戲。所以還是根據遊戲選主機吧。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章