假設檢驗

一、假設檢驗介紹

1.1.  什麼是假設檢驗

我們先對總體參數提出某種假設,然後用樣本數據判斷先前的假設是否成立的過程就是假設驗證。比如:我們認爲新配方藥比舊配方更好,然後我們收集到的樣本數據做檢驗這個假設是否成立,如果成立,我們就接受原假設,否則拒絕原假設。有原假設就有和原假設相反的備擇假設。

假設檢驗可以應用到很多場景,如:推廣新銷售方案後,收益率是否有所提高;男女分科是否存在性別因素影響。

和假設檢驗相關的有個指標叫顯著性水平:概率值,通常表示爲alpha值,在原假設爲真的情況下,拒絕原假設的概率是多少。簡單的理解就是,在某個假設前提下,做錯誤決定的概率是多大。舉個例:有個招聘會,來了1000人過來招聘,其中200個人是渾水摸魚來的,公司希望只有5%的人是什麼都不會混進來的。5%就是這個alpha值,而1-alpha是置信值,就是說公司有95%把握能招到合適的人才。所以將會有0.05*200=4個人混進來。

1.2.  假設檢驗步驟:

  1. 提出假設
  2. 確定適當的檢驗統計量(如:z檢驗,t檢驗,卡方檢驗)
  3. 規定顯著性水平(設定alpha值)
  4. 計算檢驗統計量的值(查表看是否小概率事件)
  5. 做出統計決策

1.3.  檢驗統計量

  1. 計算檢驗統計量
  2. 根據給定的顯著性水平,查表得到相應的臨界值
  3. 將檢驗統計量的值與顯著性水平的臨界值進行比較
  4. 得出拒絕或接受原假設的結論

1.4.  P值:

  • 當關鍵詞有不得少於/低於的時候用左側檢驗,比如燈泡的使用壽命不得少於/低於700小時時
  • 當關鍵詞有不得多於/高於的時候用右側檢驗,比如次品率不得多於/高於5%時

我們設原假設爲真及設置alpha值,用樣本數據計算出統計量P值,如果用左側檢驗(或右側檢驗),P值小於(或大於)alpha臨界值,說明原假設是個小概率事件,則拒絕原假設。如果用左側檢驗(或右側檢驗),P值大於(或小於)alpha臨界值,說明原假設是個大概率事件,則接受原假設。alpha臨界值我們可以用查表方法查的。

同理,還有雙側檢驗:

雙側檢驗是將alpha值二分,左右各一半,若藍色面積小於橙色面積說明原假設是小概率事件,則會拒絕原假設。舉例:要求某零件尺寸平均長度爲10cm,那麼我們需要檢驗零件大於或小於10cm兩種可能性是否成立。原假設H0:\mu =10,備擇假設H1:\mu \neq 10

1.5.  選擇檢驗統計量

當我們知道總體標準差是多少的時候,首選用z檢驗,如果不知總體標準差大小且樣本量較小時,則使用t檢驗;如果樣本容量較大則用樣本標準差S代替總體標準差公式的z檢驗。

二、Z檢驗

Z檢驗原理:當總體標準差已知,樣本量較大時用標準正態分佈的理論來推斷差異發生的概率,從而比較兩個平均數的差異是否顯著。Z檢驗公式:

  1. 如果檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著,其Z值計算公式爲:Z=\frac{\bar{X}-\mu }{\sigma _{\bar{X}}}=\frac{\bar{X}-\mu }{\sigma /\sqrt{n}}(n:樣本量)
  2. 如果檢驗兩組樣本平均數的差異性,從而判斷它們各自代表的總體的差異是否顯著,其Z值計算公式爲:z=\frac{\bar{X_1}-\bar{X_2}}{S_{\bar{X_1}-\bar{X_2}}}=\frac{\bar{X_1}-\bar{X_2}}{\sqrt{S_1^2/n_1+S^2_2/n_2}}

如何計算與統計量比較的值:

  1. 計算置信水平:1-alpha
  2. 在統計分佈臨界值中找到置信值,將對應的x,y值相加。如果沒有對應的置信值,則找到臨近的兩個值,將兩個x、y相加求平均。
  3. 附上統計分佈臨界值錶鏈接:https://wenku.baidu.com/view/cddabaf904a1b0717fd5dd3b.html

2.1.  實例一

研究正常人與高血壓患者膽固醇含量(mg%)的資料如下,試比較兩組血清膽固醇含量有無差別。正常人組:n_1=506,\bar{X_1}=180.6,S_1=34.2,高血壓組:n_2=142,\bar{X_2}=223.6,S_2=45.8。(\alpha =0.05

解:由題可知,是兩個樣本組某特徵比較是否相等,所以可用雙側檢驗,z檢驗統計量來計算差異。

  • H_0:\mu _1=\mu _2(我們習慣將原假設H0設爲樣本無差異,樣本前後沒有改變,比如:男女分科和性別無差異,燈泡壽命在產品優化後無差異。)
  • H_1:\mu _1\neq \mu _2(備擇假設,正常人膽固醇和高血壓患者的膽固醇有差異)
  • \alpha =0.05,\frac{\alpha }{2}=0.025,1-\frac{\alpha }{2}=0.975
  • 代入公式,得:Z=\frac{|180.6-223.6|}{\sqrt{34.2^2/506+45.8^2/142}}=10.4

由上面可得置信水平是0.975,用臨界值表找到對應值:1.9+0.06=1.96

確定P值, 作出推斷結論:
本例Z=10.40>1.96(查表得0.975對應值),故P <0.05,按α=0.05水準拒絕H0,接受H1,可以認爲正常人與高血壓患者的血清膽固醇含量有差別,高血壓患者高於正常人。

2.2.  實例二

根據過去大量資料,某廠生產的燈泡的使用壽命服從正態分佈N~(1020,100^2)。現從最近生產的一批產品中隨機抽取16只,測得樣本平均壽命爲1080小時。試在0.05的顯著性水平下判斷這批產品的使用壽命是否有顯著提高?(α=0.05)

解:由題可知:均值\mu=1020(以前平均壽命1020小時),標準差\sigma=100。這裏是一個樣本相比較是否提高,可用右側檢驗,z檢驗的第一公式計算統計量:

  • H_0:\mu \leq 1020(沒有提高)
  • H_1:\mu >1020
  • \alpha =0.05,1-\alpha =0.95
  • n=16
  • Z=\frac{1080-1020}{100/\sqrt{14}}=2.4
  • 由上面可得置信水平是0.95,用臨界值表找到對應值:(1.6+0.04+1.6+0.05)/2=1.645

確定P值, 作出推斷結論:
本例Z=2.4>1.645,故P <0.05,按α=0.05水準拒絕H0,接受H1,可以認爲該產品燈泡壽命有顯著性提高。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章