十、假設檢驗

Edward Teller, the famous Hungarian-American physicist, once quoted:

“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.”

假設檢驗的應用在數據科學中占主導地位。必須簡化和解構它。就像犯罪小說的故事一樣,基於數據的假設檢驗將我們從一個新穎的建議 引導  到一個  有效的命題。

一、概念

假設起源於希臘工作  hupo  (下)和  論文(放置)。這意味着有限的證據所產生的想法。這是進一步調查的起點。

這個概念既簡單又強大。我們每天直觀地進行假設檢驗。這是一個7個步驟:

  1. 做出假設。
  2. 選擇原假設。
  3. 確定備擇假設。
  4. 設置可接受條件
  5. 基於測試集進行事實調查。
  6. 評估結果。評估是否支持原假設?我們是否能夠相信結果不是偶然的?
  7. 達到以下結論之一:拒絕原假設以接受備擇假設或拒絕備擇假設。

二、處理

讓我舉一個講解假設檢驗概念的故事。 霍爾馬維克  是冰島西部的一個小鎮。這個小鎮有其獨特之處。它以巫術博物館而聞名  

即使是現在,西峽灣區也有人聲稱自己是巫師。Isildur和Gandalf就是這樣的人。Isildur和Gandalf聲稱是巫師。他們聲稱是Clairvoyant。統計學家想要證明或反駁這一主張。他們玩  Clairvoyant紙牌遊戲

遊戲規則如下:

  • Isildur和Gandalf與一組撲克牌隨機選擇的十張牌相反,並詢問四張牌中的哪一張適合它。
  • 他們必須確定卡所屬的。
  • 對於它們中的每一個,該測試重複十次。

還確定對於正常人來說,預測正確的平均次數是大約6.  這是我們將進行假設檢驗的基礎。我們將統計確定它們是否是嚮導。

第1步:做出假設

不同類型的假設檢驗做出不同的假設。假設與數據分佈,採樣和線性有關。一些常見的假設是:

  • 分佈:  數據滿足特定分佈。瞭解數據的基本模式。許多自然發生的數據點的分佈,例如股票市場數據,人體重量和高度,在酒吧喝酒的人的工資等,可以通過正態分佈來近似  。 正態分佈只是意味着很多觀察都在中間。較少的觀察值大於或小於中間值。中間值也稱爲  中位數。
  • 採樣:  假設隨機選擇爲測試採樣的數據。沒有偏差。

對於透視紙牌遊戲,以下假設是正確的:

  • 在透視卡片遊戲中,所選卡片的分發將是正常分發的。這是真的,因爲卡是隨機選擇的。卡的隨機選擇意味着將被挑選的十張卡中的每一張都具有被選擇用於測試的相等概率。
  • 有問題的卡片沒有偏差。

第2步:NULL假設(Ho)

H0爲原假設。這是現狀。該原假設被拒絕或未被拒絕。這是需要驗證和測試的。

對於透視卡片遊戲,NULL假設如下:

  • H0:Isildur / Gandalf不是透視者。

他只是在猜測。他是幸運的。

第3步:備擇假設(Ha)

替代假設是與NULL假設相反的位置。如果有統計學上顯着的證據表明備用假設是有效的,則拒絕NULL假設。

對於透視卡片遊戲,替代假設如下:

  • Ha:Isildur / Gandalf是一個透視者。

第4步:設置驗收標準

定義了NULL和備用假設。現狀是NULL假設。現在,需要設置一個閾值。我們知道一個普通的個體,即不是巫師的人會在10次中得到正確的六次。如果Isildur和Gandalf可以在測試中預測超過六張正確的牌,那麼有更多的證據表明他們可能確實是巫師。 稱爲t-統計量的度量   計算估計值與假設值的距離。高t統計使得替代假設看起來越來越合理。

假設檢驗結果可能出錯。有四種可能的情況:

  1. 測試發現Isildur / Gandalf是一個透視者。他是一個透視者。
  2. 測試發現Isildur / Gandalf不是透視者。他不是一個透視者。
  3. 測試發現Isildur / Gandalf是一個透視者。他不是一個透視者。
  4. 測試發現Isildur / Gandalf不是透視者。他是一個透視者。

測試擊中靶心的結果1和2是正確的。測試失敗了結果3和4。

  • 當結果爲真時,結果3拒絕NULL假設。這是  假正。 此錯誤也稱爲  類型I錯誤。(取僞錯誤)
  • 當結果爲假時,結果3接受NULL假設。這是  假負。 此錯誤也稱爲  類型II錯誤。(棄真錯誤)

像所有統計測試一樣,假設檢驗必須處理不確定性。它必須處理概率。沒有絕對的。

需要設置概率水平,以便建立I類錯誤發生的可能性。該級別稱爲  顯着性級別。的  阿爾法(α)  表示它。較低的α意味着測試非常嚴格。相對較高的α意味着測試不是那麼嚴格。α的值基於假設檢驗的性質來設定。典型值爲0.001,0.05或0.1

如果觀察到的價值僅僅是機會怎麼辦?如果只是巧合怎麼辦?如果他們在進行測試的當天幸運的話怎麼辦?需要減輕這種不確定性。假設檢驗有一個衡量這種不確定性的指標。 p值  是該指標。

的  p值  被表示爲概率。這意味着它的值在0和1之間.p值是在假設NULL假設爲真的情況下偶然觀察到的t統計量的概率。

對於透視卡牌遊戲,我們決定如果Isildur能夠正確猜出超過  8張牌 ,那麼替代假設似乎是合情合理的。他可能確實是一個透視者。 統計數據爲8。

作爲一個透視者並沒有生命危險。沒有人處於危險之中。顯着性水平設定爲0.05。 α是0.05。

第5步:進行測試

行動發生了。統計學家測試了伊西爾德和甘道夫的洞察力。卡片顯示。做出了預測。結果被注意到。該過程重複十次。統計引擎在收集的數據上運行。結果如下:

埃西鐸:

  • t統計:8
  • p值:0.1

-Gandalf:

  • t統計:9
  • p值:0.01

第6步:評估結果

概率(p值)和顯着性水平之間的比較產生以下結果:

對於Isildur:

  • t統計數據爲8.這意味着,他平均預測了8張牌。它高於正常人的預測值。
  • p值爲0.1。這意味着觀察到的t統計量由偶然性造成的概率爲10%。p值很高。
  • 設定顯着性水平(α)爲0.05。它轉化爲5%。
  • p值大於設定的顯着性水平,即10%> 5%。

甘道夫:

  • 統計數據爲9.這意味着他平均預測了9張牌。它高於正常人的預測值。
  • p值爲0.01。這意味着觀察到的t統計量由偶然性造成的概率僅爲1%。
  • 設定顯着性水平(α)爲0.05。它轉化爲5%。
  • p值低於設定的顯着性水平,即1%<5%。

第7步:結束

測試結束了。指標是已知的。誰是真正的巫師?

對於Isildur:  p值大於設定的顯着性水平(10%> 5%)。儘管如此,他平均預測了八張牌; 統計上,結論如下:

  • Isildur的結論:沒有實質性證據反對NULL假設。NULL假設未被拒絕。

對於甘道夫:  平均而言,他已經正確地預測了九張牌。p值低於設定的顯着性水平(1%<5%)。

  • Gandalf的結論:有充分的證據反對NULL假設。NULL假設被拒絕。替代假設被接受。

Isildur是毀滅性的。甘道夫很高興。然而,Isildur可能會因爲沒有證明他不是透視而得到安慰。NULL假設未被拒絕。這並不意味着替代假設不正確。它只意味着沒有足夠的證據來拒絕NULL假設。Isildur的現狀普遍存在。

結論

沒有必要進行假設檢驗,以找出Isildur和Gandalf中的巫師。我們都知道甘道夫是巫師。

假設檢驗是機器學習的基石概念之一。許多評估方法使用假設檢驗來評估模型的穩健性。 在我們瀏覽本系列文章時,我們將  深入探討其構造。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章