集成學習 -- 概述(一)

hello,致打開該內容的讀者:
該部分內容,我將會寫成一個專題,圍繞集成學習內容,我將會對集成學習做一個基本概述,然後介紹集成學習中的bagging、隨機森林、boosting、GBDT、xgboost和lightGBM等內容
你的收穫:在看完該系列專題,對集成學習的前世今生有一個更深刻的認識。

參加過或者瞭解過類似天池比賽、kaggle比賽的小夥伴,應該都聽過比賽大殺器,什麼xgboost、lightGBM等,那麼他們怎麼使用,又是怎麼發展起來,在該系列內容中,我們一起學習該部分內容,爲自己後期集成學習打下良好的基礎,讓我們不僅僅知其然,還知其所以然。
首先,我們一起看一下到底什麼是集成學習,以及其基本分類。

1 什麼是集成學習

image-20200108143846871

集成學習通過建立幾個模型來解決單一預測問題。它的工作原理是生成多個分類器/模型,各自獨立地學習和作出預測。這些預測最後結合成組合預測,因此優於任何一個單分類的做出預測。

2 複習:機器學習的兩個核心任務

  • 任務一:如何優化訓練數據 —> 主要用於解決欠擬合問題
  • 任務二:如何提升泛化性能 —> 主要用於解決過擬合問題

集成學習的目的就是用於解決上面提出的兩個問題。

3 集成學習中boosting和Bagging

集成學習的第一個問題就是如何得到若干個個體學習器。這裏我們有兩種選擇。

  • 第一種就是所有的個體學習器都是一個種類的,或者說是同質的。比如都是決策樹個體學習器,或者都是神經網絡個體學習器。
  • 第二種是所有的個體學習器不全是一個種類的,或者說是異質的。比如我們有一個分類問題,對訓練集採用支持向量機個體學習器,邏輯迴歸個體學習器和樸素貝葉斯個體學習器來學習,再通過某種結合策略來確定最終的分類強學習器。

目前來說,同質個體學習器的應用是最廣泛的,一般我們常說的集成學習的方法都是指的同質個體學習器。而同質個體學習器使用最多的模型是CART決策樹和神經網絡。同質個體學習器按照個體學習器之間是否存在依賴關係可以分爲兩類,第一個是個體學習器之間存在強依賴關係,一系列個體學習器基本都需要串行生成,代表算法是boosting系列算法,第二個是個體學習器之間不存在強依賴關係,一系列個體學習器可以並行生成,代表算法是bagging和隨機森林(Random Forest)系列算法。

image-20200108143935631

tips: 只要單分類器的表現不太差,集成學習的結果總是要好於單分類器的

本節內容主要宏觀介紹了什麼是集成學習,以及集成學習的基本分類。
在下一節我們將會揭開集成學習中bagging和隨機森林的神祕面紗。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章