集成學習 -- 概述（一）

原創

2020-04-21 21:43

hello，致打開該內容的讀者：
該部分內容，我將會寫成一個專題，圍繞集成學習內容，我將會對集成學習做一個基本概述，然後介紹集成學習中的bagging、隨機森林、boosting、GBDT、xgboost和lightGBM等內容
你的收穫：在看完該系列專題，對集成學習的前世今生有一個更深刻的認識。

參加過或者瞭解過類似天池比賽、kaggle比賽的小夥伴，應該都聽過比賽大殺器，什麼xgboost、lightGBM等，那麼他們怎麼使用，又是怎麼發展起來，在該系列內容中，我們一起學習該部分內容，爲自己後期集成學習打下良好的基礎，讓我們不僅僅知其然，還知其所以然。
首先，我們一起看一下到底什麼是集成學習，以及其基本分類。

1 什麼是集成學習

集成學習通過建立幾個模型來解決單一預測問題。它的工作原理是生成多個分類器/模型，各自獨立地學習和作出預測。這些預測最後結合成組合預測，因此優於任何一個單分類的做出預測。

2 複習：機器學習的兩個核心任務

任務一：如何優化訓練數據 —> 主要用於解決欠擬合問題
任務二：如何提升泛化性能 —> 主要用於解決過擬合問題

集成學習的目的就是用於解決上面提出的兩個問題。

3 集成學習中boosting和Bagging

集成學習的第一個問題就是如何得到若干個個體學習器。這裏我們有兩種選擇。

第一種就是所有的個體學習器都是一個種類的，或者說是同質的。比如都是決策樹個體學習器，或者都是神經網絡個體學習器。
第二種是所有的個體學習器不全是一個種類的，或者說是異質的。比如我們有一個分類問題，對訓練集採用支持向量機個體學習器，邏輯迴歸個體學習器和樸素貝葉斯個體學習器來學習，再通過某種結合策略來確定最終的分類強學習器。

目前來說，同質個體學習器的應用是最廣泛的，一般我們常說的集成學習的方法都是指的同質個體學習器。而同質個體學習器使用最多的模型是CART決策樹和神經網絡。同質個體學習器按照個體學習器之間是否存在依賴關係可以分爲兩類，第一個是個體學習器之間存在強依賴關係，一系列個體學習器基本都需要串行生成，代表算法是boosting系列算法，第二個是個體學習器之間不存在強依賴關係，一系列個體學習器可以並行生成，代表算法是bagging和隨機森林（Random Forest）系列算法。

tips: 只要單分類器的表現不太差，集成學習的結果總是要好於單分類器的

本節內容主要宏觀介紹了什麼是集成學習，以及集成學習的基本分類。
在下一節我們將會揭開集成學習中bagging和隨機森林的神祕面紗。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

集成學習 -- 概述（一）

1 什麼是集成學習

2 複習：機器學習的兩個核心任務

3 集成學習中boosting和Bagging

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

一文深刻理解決策樹(系列三)

一文深刻理解決策樹(系列二)

一文深刻理解決策樹(系列一)

No matching distribution found for tensorflow==2.1.0

集成學習 -- Bagging和隨機森林(二)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結