R語言 random forests out-of-bag prediction

原創

小林书店副编集

2020-07-06 11:14

out-of-bag prediction

Created: Jun 29, 2020 12:22 PM
Updated: Jun 29, 2020 12:28 PM

https://stackoverflow.com/questions/25153276/difference-of-prediction-results-in-random-forest-model

https://stats.stackexchange.com/questions/412479/difference-between-the-out-of-bag-error-and-the-predicted-error

用R語言算random forests的時候發現，訓練數據的model$predictions不等於predict(model, train_data)

這其實是一個與out-of-bag有關的合理設計。model$predictions給出的訓練數據的預測值，是out-of-bag predictions，也就是對於每個point，**進行預測的時候包含這個point的tree會被排除在外！**random forests中每個tree訓練的時候只用於2/3的數據，所以進行out-of-bag預測的時候，只會用到random forests中1/3的tree進行預測。

因此，下面的結果是不同的：

predict(model)
predict(model, newdata=dat)

第一種情況下，默認使用out-of-bag predictions。第二種數據下，由於提供了newdata（雖然是訓練數據本身），dat會被當成測試數據，而不再是訓練數據，因此進行的完整的預測，而不是隻用1/3的tree進行預測的out-of-bag predictions

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

開源編程語言Julia融資1.6億，人氣10倍速飆升

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-07-21 16:53:56

R和Python可以兼得嗎？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-06-26 10:03:52

雲時代，編程語言選R還是Python？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-06-07 11:18:57

假如編程語言是《權力的遊戲》中的角色（下）

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-03-22 18:35:23

InfoQ 編程語言 2 月排行榜，更好的投票活動來了

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

InfoQ 中文站

2021-03-22 18:34:58

【投票送書】票選你最喜歡的編程語言 | AI篇

AI，即人工智能（Artificial Intelligence）。這個詞最早於 1956 年被一批年輕科學家提出，歷經大半個世紀，從“代表未來”到“進入寒冬”，再到現在的高速發展，AI 的研究也是幾經波折。現在，各公司期望 AI 程序員

2020-10-30 17:04:00

[R]聚類算法:k-means模組

延伸<[Excel]k-means聚類算法的應用，以評價現有供應商的水平為例。>文章，同時恰巧在圖書館看到一本R語言機器學習書籍，因此正好可進一步瞭解如何用R語言來實現k-means算法和應用，一併將k-means模組建立起來，做為未來參

2020-07-08 10:38:53

R-數據挖掘-貝葉斯分類（五）

海林老師《數據挖掘》（韓佳煒書）課程作業系列要求：自己寫R/Python代碼、函數實現一系列算法其他參見： R-數據挖掘-求混合型數據對象距離（一） R-數據挖掘-主成分分析PCA（二） R-數據挖掘-關聯規則（三） R-數據挖掘-決

还是小小白

2020-07-08 04:26:58

R語言對微博內容的根據人物分類以及對博文的分詞統計

首先介紹一下數據源，根據爬蟲獲得的微博數據，當然包括很多字段（如人物暱稱，發表時間，發表內容，是否原創，是否轉發等等），在這裏簡要介紹一下處理思路，我們只需要這裏的人物暱稱，和發表內容，發表內容用於分詞分析自然不用多說，人物暱稱是

2020-07-07 22:21:12

R語言詞雲圖

R語言詞雲圖 ##安裝wordcloud2包 RStudio 安裝百度經驗可嘗試直接安裝包 install.packages("wordcloud2"); 如果安裝失敗，嘗試直接下載安裝包，通過devtools安裝： if (

2020-07-07 02:08:13

Linux下R語言調用latex生成pdf中目錄無法生成問題

Linux下R語言調用latex生成pdf中目錄無法生成問題錯誤的用法： 1、生成latex腳本： Sweave(“report.Rnw”) 2、編譯latex腳本，生成結果pdf： tinytex::pdflatex(‘rep

2020-07-06 21:57:59

R語言觀察日誌(part4)--paste函數

學習筆記轉載自：R語言中字符串的拼接操作 paste函數在R語言中 paste 是一個很有用的字符串處理函數，可以連接不同類型的變量及常量。函數paste的一般使用格式爲： paste(..., sep = " ", co

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part3)--repeat循環

學習筆記，僅供參考 repeat循環 repeat循環可以重複執行相同的代碼，直到滿足停止條件。語法 repeat { 命令行 if(關係表達式) { break #關係表達式

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part5)--利用readr和readxl包讀寫數據

學習筆記，僅供參考利用readr和readxl包讀寫數據讀取數據相關函數函數包readr和readxl提供了一系列的數據讀入功能，主要函數如下： #readr包 read_delim(file, delim

安财小山羊

2020-07-06 21:42:02

R語言通過RMySQL包操作mysql數據庫(on linux) - 如何避免讀寫中文時亂碼

環境是CentOS7，Rstudio 1.Rmysql庫安裝注意: Rmysql庫依賴DBI庫 install.packages("DBI") install.packages("RMySQL") 或 install.package

2020-07-06 19:08:01

24小時熱門文章

最新文章

最新評論文章