自動機器學習:它是聖盃嗎?

機器學習處於優勢地位特別是在模式識別方面,機器學習是首選方法。其應用的有形示例包括欺詐檢測,圖像識別,預測性維護和列車延遲預測系統。在日常機器學習(ML)和尋求部署所獲得的知識的過程中,我們通常會遇到這三個主要問題(但不是唯一的問題)。

數據質量  - 來自多個時間範圍內的多個來源的數據可能難以整理成乾淨且連貫的數據集,這些數據集將從機器學習中獲得最大收益。典型問題包括數據丟失,數據值不一致,自相關等。

<< 下載數據質量權威指南 >>

業務相關性  - 雖然支持機器學習革命的許多技術進展比以往任何時候都更快,但是今天的許多應用程序都沒有考慮到商業價值。 

操作模型  - 一旦模型經歷了構建和調整週期,將機器學習過程的結果部署到更廣泛的業務中至關重要。這是一個難以跨越的橋樑,因爲預測建模人員通常不是IT解決方案專家,反之亦然。

機器學習背後還有一整套算法工具箱,每個算法都可以使用所謂的超參數進行調整,以獲得更高的精度。例如,對於流行的k-最近鄰算法,k指的是我們想要考慮的鄰居的數量。在神經網絡中,這將涵蓋網絡的整個架構。

數據科學家今天所做的一項關鍵任務是爲給定問題找到正確的算法並正確地“設置”它。但實際上,任務範圍要大得多。數據科學家必須瞭解問題的業務視角,解決數據情況,適當準備數據並獲得有助於評估的模型。這通常是遵循跨行業標準數據挖掘過程(CRISP-DM)的循環過程[1]。

相應地,機器學習領域的項目很複雜,需要多個人在一系列領域(商業,IT,數據科學)獲得資格的時間。此外,通常不清楚結果將是什麼:因此,在這個意義上,這樣的項目是有風險的。

AutoML的相關性(http://www.o9qh.com)

直到今天,數據科學項目無法實現自動化。但是,有些情況下,項目的某些步驟可以自動化:這就是自動機器學習(AutoML概念背後的原因例如,AutoML可以幫助選擇算法。數據科學家通常比較幾個算法對問題的結果,並在考慮一系列因素(例如質量,複雜性/持續時間,魯棒性)的情況下選擇一個算法。在某些情況下可以自動化的另一個方面是超參數的設置:許多算法可以通過參數及其相對於特定問題優化的質量來調整。

AutoML是一種資源,可以加速那些部件或單個步驟自動化的數據科學項目,從而提高生產力。例如,AutoML在算法評估中非常有用。因此,許多庫和工具都採用AutoML作爲補充功能。值得注意的例子包括auto-sklearn(在Python社區中)或DataRobot,它專門研究AutoML。以下示例摘自RapidMiner,顯示瞭如何使用助手比較不同的算法,並快速找到針對特定問題的最佳算法[2]:

儘管如此,AutoML不應該被理解爲一種萬能的解決方案,能夠完全自動化數據科學項目並且不需要數據科學家。從這個意義上說,不幸的是,它不是聖盃。

與其他專業領域一樣,自動化首先是繁瑣的技術任務,其中高技能專業人員否則會花費大部分時間系統地嘗試某些參數集,然後比較結果 - 這項工作最好留給機器。

剩下的是人類仍然需要解決的大量挑戰。這首先要了解實際問題本身,並涵蓋從數據工程到部署的各種各樣的,非常耗時的任務。AutoML是一個很有用的工具,但它還不是聖盃。

更多:(http://www.o9qh.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章