什麼是自動機器學習(AutoML)?(譯)

本文選自《Hands-On Automated Machine Learning》

 

自動機器學習(AutoML) 旨在通過讓一些通用步驟 (如數據預處理、模型選擇和調整超參數) 自動化,來簡化機器學習中生成模型的過程。您將在接下來的章節中詳細瞭解到這一過程中的細節,並手把手構建一個自動機器學習( AutoML) 系統,以便深入瞭解自動機器學習( AutoML)的可用工具和庫。

在瞭解更多細節前,首先我們回顧什麼是機器學習(ML)模型以及我們要如何訓練一個模型。

機器學習(ML)算法會在你輸入的數據上,找到某些特定的共性模式,這個學習過程稱爲模型訓練。機器學習的模型,就是這種模型訓練的成果,它可以在沒有設定具體規則的情況下,幫助我們分析數據及其內在的邏輯聯繫。

 

當你實際使用機器學習(ML)模型時,需要先提供大量的數據,用於訓練算法。訓練完成之後,你將得到一個機器學習的模型,可用於進行預測。預測可以輔助你進行決策,比如:根據服務器當前狀態來判斷未來四個小時內是否應進行維護,又比如你的客戶是否開始倒向你的競爭對手。

有時你正在解決的問題還不夠清晰,或者你甚至不知道你在尋找什麼方向的答案。在這種情況下,機器學習(ML)模型將幫助你探索現有的數據集,例如識別行爲相似的客戶羣體,或根據股票數據的相關性找到其內在層次結構。

你的模型區分客戶羣之後,能做些什麼呢?好吧,你至少該知道這一點:屬於同一集羣的客戶,通常會共有某些相似特徵點,例如他們的年齡,職業,婚姻狀況,性別,產品偏好,每日/每週/每月消費習慣,總數花費的金額,等等。屬於不同集羣的客戶的特徵點不同。通過這樣的數據支持,你就可以利用此針對每個客戶羣進行不同的廣告投放。

 

上面是業務層面,從技術層面來說,讓我們用簡單的術語來理解這個過程。有一個數據集X,其中包含n個樣本。這些樣本可以代表顧客或不同種類的動物。每個示例通常都是一組實數,稱爲特徵(features)。例如,如果我們有一位35歲的女性客戶在您的商店花費12000美元,則可以使用以下向量代表該客戶(0.0,35.0,12000.0) 。請注意,性別用0.0表示,這意味着男性客戶的該特徵將爲1.0。向量的大小代表維度。由於向量有三個,我們通常用m表示這是一個三維數據集。

根據問題類型,您可能需要爲每個樣本添加標籤。例如,如果這是一個有監督學習問題,如二進制分類,您可以用1.0或0.0標記您的樣本,這個新變量稱爲標籤或目標變量。目標變量通常稱爲y。

有了x和y,機器學習(ML)模型可以認爲是一個帶有權重w(模型參數)的函數f:

f(x; w)

模型參數是在訓練過程中學習而賦值的,但是還有一些其他的參數,需要在訓練開始之前進行設置,這些參數稱爲超參數,稍後將對其進行解釋。

 

在模型訓練之前,通常要對數據集中的原始數據進行預處理。例如,一些機器學習(ML)模型預設特徵是正態分佈的。在許多現實場景中,情況並非如此,需要我們實現進行數據轉換,比如說對數變換(log transformation),使其正態分佈。

 

完成數據處理並設置模型超參數後,就可以開始訓練模型了。在模型訓練結束時,會自動習得並保存模型參數,並且此時,我們已經可以通過模型預測,模型之前在訓練中未見過的新數據的目標變量。由模型做出的預測通常稱爲(讀作y hat,表示y的估計值)。

 

模型訓練期間到底發生了什麼?已知在數據集的訓練過程中,我們打過標籤,因此,我們可以基於當前模型所預測的內容,將其與原始標籤進行比較,來更新我們的模型參數。

這種比較基於損失函數(或者說成本函數),,損失函數表示了預測的不準確性。一些常見損失函數,比如平方損失(square loss),鉸鏈損失(hinge loss),邏輯損失( logistic loss)和互熵損失( cross-entropy loss)。

 

完成模型訓練後,可以用之前模型訓練過程中未使用過的數據集,來測試機器學習(ML)模型性能,以檢測模型的通用性。你可以使用不同的指標,來評估性能;並根據結果,在前序步驟進行多方面的調整,來改善模型,以獲得更好的性能。

 

基於此考慮,你應該充分了解,在訓練模型的過程中,到底發生了些什麼。

 

什麼是自動機器學習(AutoML)呢?當我們提起AutoML時,我們更多地是說自動化數據準備(即數據的預處理,數據的生成和選擇)和模型訓練(模型選擇和超參數調優)。這個過程的每一步都有非常多的選項(options),根據我們遇到的問題,需要設定各種不同的選項。

自動機器學習(AutoML)的意義就在於此,它幫助研究人員和從業者,自動構建機器學習(ML)管道,將多個步驟及其對應的多個選項集成爲工作流,以期快速找到針對給定問題的高性能機器學習(ML)模型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章