一、假設檢驗介紹
1.1. 什麼是假設檢驗
我們先對總體參數提出某種假設,然後用樣本數據判斷先前的假設是否成立的過程就是假設驗證。比如:我們認爲新配方藥比舊配方更好,然後我們收集到的樣本數據做檢驗這個假設是否成立,如果成立,我們就接受原假設,否則拒絕原假設。有原假設就有和原假設相反的備擇假設。
假設檢驗可以應用到很多場景,如:推廣新銷售方案後,收益率是否有所提高;男女分科是否存在性別因素影響。
和假設檢驗相關的有個指標叫顯著性水平:概率值,通常表示爲alpha值,在原假設爲真的情況下,拒絕原假設的概率是多少。簡單的理解就是,在某個假設前提下,做錯誤決定的概率是多大。舉個例:有個招聘會,來了1000人過來招聘,其中200個人是渾水摸魚來的,公司希望只有5%的人是什麼都不會混進來的。5%就是這個alpha值,而1-alpha是置信值,就是說公司有95%把握能招到合適的人才。所以將會有0.05*200=4個人混進來。
1.2. 假設檢驗步驟:
- 提出假設
- 確定適當的檢驗統計量(如:z檢驗,t檢驗,卡方檢驗)
- 規定顯著性水平(設定alpha值)
- 計算檢驗統計量的值(查表看是否小概率事件)
- 做出統計決策
1.3. 檢驗統計量
- 計算檢驗統計量
- 根據給定的顯著性水平,查表得到相應的臨界值
- 將檢驗統計量的值與顯著性水平的臨界值進行比較
- 得出拒絕或接受原假設的結論
1.4. P值:
- 當關鍵詞有不得少於/低於的時候用左側檢驗,比如燈泡的使用壽命不得少於/低於700小時時
- 當關鍵詞有不得多於/高於的時候用右側檢驗,比如次品率不得多於/高於5%時
我們設原假設爲真及設置alpha值,用樣本數據計算出統計量P值,如果用左側檢驗(或右側檢驗),P值小於(或大於)alpha臨界值,說明原假設是個小概率事件,則拒絕原假設。如果用左側檢驗(或右側檢驗),P值大於(或小於)alpha臨界值,說明原假設是個大概率事件,則接受原假設。alpha臨界值我們可以用查表方法查的。
同理,還有雙側檢驗:
雙側檢驗是將alpha值二分,左右各一半,若藍色面積小於橙色面積說明原假設是小概率事件,則會拒絕原假設。舉例:要求某零件尺寸平均長度爲10cm,那麼我們需要檢驗零件大於或小於10cm兩種可能性是否成立。原假設H0:,備擇假設H1:
1.5. 選擇檢驗統計量
當我們知道總體標準差是多少的時候,首選用z檢驗,如果不知總體標準差大小且樣本量較小時,則使用t檢驗;如果樣本容量較大則用樣本標準差S代替總體標準差公式的z檢驗。
二、Z檢驗
Z檢驗原理:當總體標準差已知,樣本量較大時用標準正態分佈的理論來推斷差異發生的概率,從而比較兩個平均數的差異是否顯著。Z檢驗公式:
- 如果檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著,其Z值計算公式爲:(n:樣本量)
- 如果檢驗兩組樣本平均數的差異性,從而判斷它們各自代表的總體的差異是否顯著,其Z值計算公式爲:
如何計算與統計量比較的值:
- 計算置信水平:1-alpha
- 在統計分佈臨界值中找到置信值,將對應的x,y值相加。如果沒有對應的置信值,則找到臨近的兩個值,將兩個x、y相加求平均。
- 附上統計分佈臨界值錶鏈接:https://wenku.baidu.com/view/cddabaf904a1b0717fd5dd3b.html
2.1. 實例一
研究正常人與高血壓患者膽固醇含量(mg%)的資料如下,試比較兩組血清膽固醇含量有無差別。正常人組:,高血壓組:。()
解:由題可知,是兩個樣本組某特徵比較是否相等,所以可用雙側檢驗,z檢驗統計量來計算差異。
- (我們習慣將原假設H0設爲樣本無差異,樣本前後沒有改變,比如:男女分科和性別無差異,燈泡壽命在產品優化後無差異。)
- (備擇假設,正常人膽固醇和高血壓患者的膽固醇有差異)
- 代入公式,得:
由上面可得置信水平是0.975,用臨界值表找到對應值:1.9+0.06=1.96
確定P值, 作出推斷結論:
本例Z=10.40>1.96(查表得0.975對應值),故P <0.05,按α=0.05水準拒絕H0,接受H1,可以認爲正常人與高血壓患者的血清膽固醇含量有差別,高血壓患者高於正常人。
2.2. 實例二
根據過去大量資料,某廠生產的燈泡的使用壽命服從正態分佈N~(1020,100^2)。現從最近生產的一批產品中隨機抽取16只,測得樣本平均壽命爲1080小時。試在0.05的顯著性水平下判斷這批產品的使用壽命是否有顯著提高?(α=0.05)
解:由題可知:均值=1020(以前平均壽命1020小時),標準差=100。這裏是一個樣本相比較是否提高,可用右側檢驗,z檢驗的第一公式計算統計量:
- (沒有提高)
- n=16
- 由上面可得置信水平是0.95,用臨界值表找到對應值:(1.6+0.04+1.6+0.05)/2=1.645
確定P值, 作出推斷結論:
本例Z=2.4>1.645,故P <0.05,按α=0.05水準拒絕H0,接受H1,可以認爲該產品燈泡壽命有顯著性提高。