自然語言處理當中評價指標彙總

自然語言處理當中評價指標很多，好多專用的術語，本篇旨在對常用的評價指標彙總，督促自己系統學習，大家當做參考不足之處請指出並做交流。

文本分類評測指標如下：

P-R曲線的比較：

對於A和B曲線，如果需要比較，比較兩個曲線的輪廓的面積.
宏觀和微觀評價指標
ROC與AUC曲線
機器翻譯當中的評價指標BLEU：
對機器翻譯作人工評價時會考量到翻譯的許多方面：如機器的充分性、忠實度和流暢度。機器翻譯同專業人工翻譯越接近越好，爲了評價機器翻譯質量，他們需要使用某種“數值型度量指標”來衡量機器譯文同人工翻譯的參考譯文的相似程度.BLEU方法便是對待評價和參考譯文的“n-單元片段（n-gram）”進行比較，並計算出匹配片段的個數，這些匹配片段與他們在文字中存在的位置無關，匹配片段數越多越好。在BLEU方法中，首先逐個句子計算“n-單元片段”的匹配個數，然後講經過剪切的“n-單元片段”匹配數加起來求和，在除以待評測譯文中“n-單元片段”個數。
參考文獻：a method for automatic evaluation of machine translation.
偏差與方差
顯著性檢驗
A/B測試試驗原理來看，它是統計學上假設檢驗(顯著性檢驗)的一種形式。
A/B 測試是一種對比試驗，在試驗過程中，我們從總體中抽取一些樣本進行數據統計，進而得出對總體參數的一個評估。我們能從試驗數據中得出有效結論的科學基礎是基於統計學原理。
既然涉及統計學了，我們先來了解一些基礎概念，這些會對我們理解這些內容有很大幫助。
在現在的 Appadhoc 平臺做測試時，我們通過對試驗數據的解讀來確認哪個版本的效果更好；整個過程就其實相當於在做一個對比試驗，通過綜合對比原始版和試驗版本的樣本數據，從而判斷這兩個版本存在差異或者相同的結論。
首先，在試驗過程中存在2個假設，這兩個假設的關係我們需要先搞清楚。
原假設：我們希望通過試驗結果推翻的假設
備擇假設：我們希望通過試驗結果驗證的假設

我們在做A/B測試時，利用試驗樣本數據判斷備擇假設是否成立。邏輯上運用反證法，統計上依據小概率思想。原假設和備擇假設是一個完備事件組，而且相互對立。在一項假設檢驗中，原假設和備擇假設必有一個成立，而且如果其中一個不成立則必須無條件接受另一個。在A/B測試過程中，因爲我們試驗的目的是通過反證法證明測試版本和對照版本有明顯的不同（提升），所以在這個場景中，原假設就是原始版本和試驗版本無差異，而備擇假設就是這兩個版本存在差異；這也很好理解，因爲我們肯定不希望做了半天測試，得到的結果是兩個版本一點差異都沒有吧？

現在中心思想明確了，我們的做A/B測試的試驗的目的就是推翻2個版本無差異的原假設，驗證他們有差異的備擇假設。

既然做試驗時，我們通過樣本數據去驗證我們的觀點，那肯定會有犯錯的概率，爲了得到科學的試驗結果，我們則需要儘可能減少這些可能導致我們隊試驗結果做出誤判的概率。
第一類錯誤：原假設爲真時拒絕了原假設
首先我們容易犯的就是第一類錯誤，就是原假設爲真時拒絕了原假設，說白了就是過來就是2個版本無差異時候，我們錯誤的認爲他們有差異（從統計學角度講也叫棄真錯誤）這個錯誤的後果非常嚴重，所以我們把這它的標準設一個值0.05，它其實就是一個概率，這個概率就是我們容許自己出錯的概率。

這個就是5%就是在統計學裏稱作 α , 它代表着我們這個試驗結果的置信水平。與這個置信水平相對應的就是置信區間的置信度，由 1- α 得出，所以你在這裏看到如果 α 是0.05，那置信度就是0.95，也就是說，如果我們容許自己出錯的機率是5%，那我們將得到一個有 95% 的可能性包含真實的總體均值區間範圍，如果你把這個 α 調整成0.07，那你的置信區間的置信度將變成93%。
由於 α 是我們自己設置的，那麼當然需要通過數據去驗證一下，這個通過計算出來的值就是 p-value ， p 的定義就是，如果兩個版本無差異的前提下，我們得到這個試驗數據的概率。

p-value 是計算出的， α 是我們自己設定的。

p <= α 則意味着我們的測試得到了統計顯著的結果, 因爲只有我們得到的這個 p 的概率越小，我就可以越有信心的地根據小概率事件不會發生的判斷依據，從而推翻原假設，接受備擇假設。（假設 p 值0.04 那麼意味着如果原假設爲真，我們通過抽樣得到這樣一個樣本數據的可能性只有 4%。則我可以認爲此次試驗發生了小概率事件。根據小概率事件不會發生的判斷依據，我們可以反證認爲原假設不成立，接受備擇假設的事實。）
p 值覈算涉及樣本均值，樣本數量，和標準差。
- 第二類錯誤：原假設爲假時接受了原假設

減少了第一類錯誤後，還有另一種錯誤會影響我們的決斷，

那就是原假設爲假時接受了原假設，說白了就是2個版本有差異時候，我們錯誤的認爲他們沒有差異，這個錯誤的概率在統計學角度也稱爲取僞錯誤，記爲 β ），這個概率可以相對大一些，業界大約定俗成的一個標準就是10%和20%的概率。

和顯著性水平一樣，爲了避免我們犯第二類錯誤，我們需要通覈算 β 從而計算出另一個參數來給我們參考，就是統計功效，和核算置信區間的置信度類似，它的思路是 1-β 來得出（統計功效 power = 1 – β ）

統計功效是指版本差異（效果）爲某個指定值時，通過顯著性檢驗能正確地把差異檢驗出來的概率。說白了就是，假設兩個版本的確存在差異，我們能夠正確拒絕原假設，獲得統計顯著性結果（95%置信區間中數據）的概率。

統計功效的核算涉及樣本數量，方差， α 、以及最小變化度或者置信區間下限。

由此可見，只有我們把第一類錯誤控制在5%以內，第二類錯誤控制在10%-20%左右，我們纔可以說得出具有參考價值的出的試驗數據。

換句話說，我們在做A/B測試時，試驗結果達到95%的置信度，以及80%-90%的統計功效時，它對我們來說纔是有意義、可以作爲決策參考的。

本文作者：吆喝科技 CSM 團隊傅禮陽，如果你對這篇文章感興趣，或者還有不理解的問題，可以添加作者微信討論：fly415。

吆喝科技：國內唯一同時支持前端(Web/H5、iOS、Android)及後端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發佈、多維度數據統計分析、科學的流量分配系統、一鍵發佈新版本無需應用市場審覈、定向測試。
用數據幫助用戶優化產品，提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案，提高產品設計、研發、運營和營銷效率，降低產品決策風險。

參考文獻：周志華-機器學習

自然語言處理當中評價指標彙總

極客夢的博客

自然語言處理當中評價指標彙總

隨機森林

條件隨機場學習

數據開發常用的幾種數據預處理和數據整理方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結