卡方檢驗
卡方檢驗,不瞭解的人乍一聽,心想這是啥?怎麼這麼唬人啊。嘿嘿,不用擔心和害怕,我會嘗試白話介紹卡方檢驗,讓你搞明白不費力!
下面,我將從:什麼是卡方檢驗,卡方檢驗在機器學習中能幹什麼的,以及卡方檢驗的實際應用三方面來逐步遞進的介紹。
1、什麼是卡方檢驗
1.1、簡介
卡方檢驗,出自於統計學,是統計學中的一種方法,在機器學習中也有應用到。卡方檢驗是用來檢驗兩個變量之間有沒有關係。
下面,用一個簡單例子來說明它的大致邏輯原理:
投硬幣
那我們先從一個最簡單的例子說起。
1) 根據投硬幣觀察到的正面,反面次數,判斷這個硬幣是均衡的還是不均衡。
現在有一個正常的硬幣,我給你投50次,你覺得會出現幾個正面,幾個反面?
按照你的經驗你會這麼思考,最好的情況肯定是25個正面,25個反面,
但是肯定不可能這麼正正好好的,嗯,差不多28個正面,22個反面吧;
23個正面,27個反面也可能的,
但是10個正面,40個反面肯定不可能的,除非我運氣真的那麼碰巧。
你上面的這個思維方式,就是拿已經知道的結果(硬幣是均衡的,沒有人做過手腳),推測出會出現的不同現象的次數。
而卡方檢驗是拿觀察到的現象(投正面或反面的次數或者頻數),來判斷這個結果(硬幣是不是均衡的)。
繼續上面這個例子,
如果我不知道這個硬幣是不是均衡的,我想用正面,反面的頻次來判斷,我投了50次,
其中28個正面,22個反面。我怎麼用卡方檢驗來證明這個硬幣是均衡的還是不均衡的呢?
這裏要引出卡方檢驗的公式:
這個公式可以幫我們求出卡方檢驗的值,我們用
- 1 這個公式求得的值
- 2 自由度(degree of freedom,不熟悉的可以去看我在簡書的用可視化思維解讀統計自由度)
- 3 置信度
其中,自由度我們可以求出來,置信度的話,我們按照我們自己意願挑選,一般我們會挑90%或者95%。
這三個數值計算方法如下:
我們拿到這3個信息,去查表,因爲0.72小於查表得到的3.841,所以我們得出這個硬幣是均衡的結論。
這裏還涉及到假設檢驗中,拒絕H0還是不拒接H0,這篇文章就不詳細展開了。
核心思想:用於衡量實際值與理論值的差異程度。
1.2、實現步驟
(1)求卡方值
(2)求自由度
(3)置信度(按照自己意願挑選,一般挑90%或者95%)
(4)拿到這3個信息,去查卡方表(卡方分佈臨界值),得P值和結論。
1.3、卡方值公式
求卡方值的公式:
卡方檢驗反應的是理論值與實際值之間的差異性。卡方值越大,表示理論與實際的差異越大。若各理論數與相應實際數相差越小,卡方值越小;如兩者相同,則卡方值必爲零。
1.4、缺點
卡方檢驗對於出現次數較少的特徵更容易給出高分。
2、卡方檢驗在機器學習中能幹什麼
上面介紹過了,卡方檢驗是統計學的一種方法,可以檢驗兩個變量之間有沒有關係的。那麼在機器學習當中卡方檢驗能幹什麼呢?
既然卡方檢驗可以檢驗兩個變量之間的關係,那麼在機器學習中可以用來做
(1)特徵的選取,把無關的特徵剔除掉,減少特徵數量,來提高訓練速度。
(2)一些噪音特徵會導致模型出現錯誤的泛化,通過卡方檢驗也可以去掉那些無關的噪聲。
3、卡方檢驗的實際應用
3.1、在電商當中的案例應用
我們要觀察性別和在線上買不買生鮮食品有沒有關係,現實生活中,女性通常去菜市場買菜的比較多,那麼在線上是不是也這樣。
通過卡方檢驗,得出結論:不同的性別和在線上買生鮮食品是有關係的。切女性居多。
那麼,就可以在生鮮頁面,引入女士包包、衣服一類的廣告,可以幫助引流,更大化的擴大利益。
指標在生活中無處不在,非常重要,而且可以幫助我們從多角度來更好的理解和量化各種問題。
3.2、在醫學領域的應用
在醫學研究中,常需要對兩組、多組率或構成比進行比較:如兩種治療方法的有效率、不同地區某種疾病的發病率、人羣構成是否相同等。
例如,某名村民得了大骨節,他就想是不是自己喝的河水飲用水有關呢。於是,問題實際上變成了,某無序分類變量各水平在兩組或多組間的分佈是否一致。如果這個村的河水引用區的檢出率和另外一個泉水引用區的檢出率一樣,就說明無關,反之就相關。這就可以用卡方檢驗來做科學支持。
3.3、在工業生成領域的應用
例如:某工廠想提高自己的產品合格率,想看看控制產品加工工藝的影響後,產品原料類別是否與產品合格有關。可以通過卡方檢驗來做科學支持,找出相關的原材料類別,完成精準打擊,提升企業競爭力。
參考:
https://blog.csdn.net/snowdroptulip/article/details/78770088
https://www.jianshu.com/p/807b2c2bfd9b
https://blog.csdn.net/yihucha166/article/details/50646615