貝葉斯方法的m-估計

原創

2020-02-22 14:37

爲什麼要有m-估計？

當我們通過在全部事件的基礎上觀察某事件出現的比例來估計概率時，例如：P=nc/n.，其中nc爲該類別中的樣本數量，n爲總樣本數量。若n=5，當P=0.6時，則nc爲3。多數情況下該比例是對概率的一個良好的估計。但當nc很小時估計會較差，例如：P=0.08，樣本中同樣有5個樣例，那麼對於nc最可能的取值只有0,。這會導致兩個問題：

1、nc/n產生了一個有偏的過低估計概率。

2、當此概率估計爲0時，將來的查詢此概率項將會在貝葉斯分類器中佔統治地位。原因是貝葉斯公式中計算得量其他所有概率項都將乘以此0值。

爲了避免此問題，所以需要採用一種估計概率，即如下定義的m-估計：

其中nc爲該類別中的樣本數量，n爲總樣本數量，p爲將要確定的概率的先驗估計，m爲等效樣本大小的常量。

爲什麼m-估計的公式是這樣的？

首先，請思考問題出現的根本原因，問題出現的根本原因是樣本數量過小。所以爲了避免此問題，最好的方法是等效的擴大樣本的數量，即在爲觀察樣本添加m個等效的樣本，所以要在該類別中增加的等效的類別的數量就是等效樣本數m乘以先驗估計p。

爲什麼在貝葉斯應用（如mahout）中使用的公式如下呢？

其中nk爲單詞W出現的次數，n爲所有單詞出現的次數。

其實，這只是m的取值的關係，當等效樣本數m爲詞彙表中的單詞數時，自然取統一的先驗概率的p的值就是1/|vocabulary|咯。

發佈了147 篇原創文章 · 獲贊 25 · 訪問量 26萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2、TF-IDF和BM25計算文本相似度

這兩者計算的都是文檔和文本之間的相似度，如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF 假設文本是“我怎麼這麼帥氣”，4個詞，第一個詞“我”，文檔1中一共有10個詞，“我”有2次，這個詞的詞頻都是2，這

2020-07-05 22:00:39

阿里few shot learning文章的個人理解

先貼結構圖： 1、每次C類，每類K樣本，剩下的是測試集。 2、encoder層是BiLSTM+attention，得到編碼向量，假設隱含層個數是96個，句子長度是30，暫不考慮batch_size，那麼每個字的隱含層就是1*192向量，

2020-07-05 22:00:28

激活函數快速理解

1、sigmoid函數所以啊很明顯，會導

2020-07-05 22:00:28

NLP文本分類入門學習及TextCnn實踐筆記——模型訓練（三）

這篇記模型訓練。距離第一篇已過去一個月。從學習到正式啓動模型訓練，花了兩週。模型訓練召回率和準確率達到上線標準又花了兩三週。訓練及測試樣本評估的精確率都是97%、98%，結果一到線上實驗，結果慘不忍睹，才明白模型訓練不是那麼簡單的事情

2020-07-04 13:47:13

FastText在商品分類下的應用（第十屆服創大賽全國三等獎）

昨天第十屆服務外包創新創業大賽公佈了全國三等獎和晉級決賽的名單，獲得了三等獎。這基本上結束了我個人本科階段的比賽，因爲馬上就要去IBM實習了。這篇文章一方面是對這次比賽進行一個總結，另一方面也是想將FastText的使用給大家介

2020-07-02 03:14:33

基於樹模型的lightGBM文本分類

目錄 1、基於TF的關鍵詞提取 2、根據詞頻將文本轉化爲向量 3、基於樹模型的重要特徵選擇 5、完整代碼實現 6、分類結果 1、基於TF的關鍵詞提取使用TF詞頻對訓練集clean_data_train進行關鍵詞提取，選取topK個關鍵詞

2020-06-28 22:26:18

文本轉化爲向量

假如有一句話"I am a student"。用向量來表示每個單詞，採用one hot 編碼表示方式： I -> [1,0,0,0] am -> [0,1,0,0] a -> [0,0,1,0] student -> [0,0,0

2020-06-27 16:51:00

一行代碼自動調參，支持模型壓縮指定大小，Facebook升級FastText

轉自：https://mp.weixin.qq.com/s/LLrq1F2uEC2xEWZrd9uijA FastText 作爲一款使用簡單、運行快速的自然語言處理工具，獲得了很多研究者和開發者的喜愛。美中不足的是，FastText 之

想努力的人

2020-06-27 11:32:25

word2vec中的負採樣（以CBOW模型爲例）

CBOW模型圖輸入詞w（t）的上下文單詞的詞向量（隨機生成），輸入層單詞加和得到了一個跟輸入詞相同維數的向量。對此向量進行相應操作，使得輸出爲w(t)的概率最大。當然輸出層可以用softmax，目標：w(t)的s

今天周一天气晴

2020-06-26 11:22:56

fasttext進行文本分類

https://github.com/facebookresearch/fastText python版本 https://github.com/salestock/fastText.py 這個是非官方的版本　現在已經不在使用了官方提供

光英的记忆

2020-06-24 11:56:31

【文本分類】RCNN模型

RCNN模型也是用於文本分類的常用模型，其源論文爲Recurrent Convolutional Neural Networks for Text Classification。模型整體結構如下：架構主要包括如下模塊：（1

2020-06-21 07:34:55

中文詞向量的訓練

最近在做畢設，需要對中文進行向量化表示，現有的最全中文詞向量預訓練向量有：最全中文詞向量 part 1:以上鍊接中的詞向量介紹：格式預先訓練好的向量文件是文本格式。每行包含一個單詞和它的向量。每個值由空格分隔。第一行記錄元信息：第一個

2020-06-20 15:24:51

中文詞向量學習記錄-綜述

最近打算準備畢設，所以需要仔細瞭解一下中文詞向量的最近發展，發現一個比較完整的系列文章：參考原文鏈接：https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_f

2020-06-20 15:24:51

分類問題集錦及練習

Sklearn 與 TensorFlow 機器學習實用指南 https://hand2st.apachecn.org/#/ 文章目錄一. 分類問題種類二. 評價指標三.分類流程（預處理、分詞、去停用詞、取名詞、特徵提取、特徵加權t

2020-06-20 09:28:03

基於gibbsLDA的文本分類

之前幾篇文章講到了文檔主題模型，但是畢竟我的首要任務還是做分類任務，而涉及主題模型的原因主要是用於text representation，因爲考慮到Topic Model能夠明顯將文檔向量降低維度，當然TopicModel可以做比這更多

2020-06-20 01:48:19

24小時熱門文章

最新文章

最新評論文章