第2章 模型評估與選擇
p24-p51 2017-2-21 Tue
Error rate錯誤率:分類錯誤的樣本佔樣本總數的比例
Accuracy精度:1-錯誤率,分類正確的樣本佔樣本總數的比例
Error誤差:實際預測輸出-樣本的真實輸出
Training error訓練誤差(或empirical error經驗誤差):學習器在訓練集上的誤差
Generalization error泛化誤差:在新樣本上的誤差
(實際需要在新樣本上表現很好的學習器)
Overfitting過擬合:學習能力太好,把訓練樣本所包含的不太一般的特性都想學到了
Underfitting欠擬合:學習能力太差,對訓練樣本的一般性質尚未學好
Model selection模型選擇:
Testing set測試集:測試學習器對新樣本的判別能力
Testing error測試誤差:泛化誤差的近似
(注意:測試集應該儘可能與訓練集互斥)
Hold-out留出法:
Stratified sampling分層採樣保留類別比例的採樣方式
Cross validation交叉驗證法(又稱k-fold cross validationk折交叉驗證)
Leave-One-Out(LOO)留一法:交叉驗證法的一個特例
Bootstrapping自助法:
out-of-bag estimate包外估計
Parameter tuning調參(參數調節)
測試數據:學得模型在實際使用中遇到的數據
Validation set驗證集模型評估與選擇中用於評估測試的數據集
Performance measure性能度量衡量模型泛化能力的評價標準
Mean squared error均方誤差:迴歸任務最常用的性能度量
錯誤率和精度——分類任務中最常用的兩種性能度量
Precision查準率(亦稱準確率)
Recall查全率(亦稱召回率)
Confusion matrix混淆矩陣:true positive真正例,false positive假正例,
True negative真反例,false negative假反例
(查準率和查全率是一對矛盾的度量)
P-R曲線(P-R圖):查準率-查全率曲線
Break-Event Point(BEP)平衡點:查準率=查全率時的取值
Harmonic mean調和平均:
macro-P宏查準率
micro-P微查準率
Cut point截斷點
ROC:Receive Operating Characteristic受試者工作特性
ROC曲線(ROC圖)
AUC
Unequal cost非均等代價
Cost matrix代價矩陣
Cost curve代價曲線
Normalization規則化:將不同變化範圍的值映射到相同的固定範圍中,常見的是[0,1],此時亦稱歸一化。
Hypothesis test統計假設檢驗
Binomial二項(分佈)
Binomial test二項檢驗
泛化錯誤率:學習器在一個樣本上犯錯的概率
Confidence置信度
t-test:t檢驗
Two-tailed雙邊(假設)
Paired t-test成對t檢驗
卡方分佈
Contingency table列聯表
Post-hoc test後續檢驗——Friedman檢驗
bias-variance decomposition偏差-方差分解——解釋學習算法泛化性能的一種重要工具
Bias偏差:期望輸出與真實標記的差別
偏差:度量了學習算法的期望預測與真實結果的偏離程度,即刻畫了學習算法本身的擬合能力
方差:度量了變動所導致的學習性能的變化,即刻畫了數據擾動所造成的影響
噪聲:表達了在當前任務學習上任何學習算法所能達到的期望泛化誤差的下屆,即刻畫了學習問題本身的難度
bias-variance dilemma偏差-方差窘境:偏差與方差是有衝突的
Student's t-test學生氏t檢驗