機器學習三要素:模型、策略與算法

機器學習三要素:模型、策略與算法

 

提到機器學習,這無疑是數據分析師最常提到的一個詞兒了,機器學習也叫統計學習,即Statistics Learning。一些商學院常常講的Business Intelligence或者Business Analytic基本上也就是這回事兒。機器學習在幹嘛?就是利用已有數據,找到一些合適的數學模型去描述它,然後做一些預測分析,從而優化企業的流程或者提高決策效率。

機器學習的核心是:模型、策略與算法

 

機器學習的目的——模型(Model)

模型就是那個用來描述客觀世界的數學模型,模型是從數據裏抽象出來的。在進行數據分析時,我們通常手上只有數據,然後看着數據找規律,找到的規律就是模型。就跟小時候做猜數字遊戲似的,1,4,16…()…256…,括號裏是什麼?只有把這串數抽象成模型,我們才能知道括號裏是什麼。其實我們很小的時候就接觸到機器學習,只是那時候只顧考試,沒有這些深入思考罷了。

再舉個例子,購買產品的顧客到達服務檯的時間是什麼模型?也許是一個泊松分佈。文本中某個此項出現的概率是什麼模型?也許隱狄雷科雷分佈。股票的價格隨時間的變化是什麼關係?是基於布朗運動的二項隨機分佈…

模型可以是確定性的,也可以是隨機的,無所謂,總之用數學可以描述,只要數學可以描述的,就可以進行預測分析。所以,我們的根本目的,是找一個模型去描述我們已經觀測到的數據。

 

如何構造模型——策略(Strategy)

例如我們相用一個正態分佈去描述一組數據,我們就要去構造這個正態分佈,實際上就是預測這個分佈的參數,例如:均值?方差?… 但是,我們需要有一系列的標準去選擇合適的模型,模型不是拍腦袋來的。我想用正態分佈,理由呢?我相用二項分佈,憑啥不能用三角分佈?我想讓正態分佈的均值爲0.5,憑啥0.5比選0.2好?做研究不能任性,別人會質疑你,所以,就需要有一系列的標準來證明一個模型比另一個模型好,這就是策略。

不同的策略,對應不同的模型的比較標準和選擇標準。就跟選班幹部一樣,選帥的,好,那就讓吳彥祖當班長,選逗比的,也許選出來的就是王寶強,選會唱歌的,沒準是周杰倫…好,所以最終確定的模型是什麼,實際上就跟兩件事兒有關,1)我們拿到的數據是什麼?2)我們選擇模型的策略是什麼?

說道策略,一般會講到,經驗風險最小化作爲常用的標準。經驗風險最小是指,用這個模型,套到已有的觀測數據上,基本上是靠譜的。但在已有觀測數據不足的情況下,我們也可以採用結構風險最小化作爲標準。這也是大多數時候我們在機器學習時候有意或無意就用到的準側。經驗風險和結構最小化是一個參數優化的過程,我們需要構造一個損失函數來描述經驗風險,損失函數可以理解爲我們預測一個數據錯了給我們帶來的代價。每個人對損失函數的定義都不同,所以優化出來的結果也不同,這也導致最終我們學習到的模型會各種各樣,解決一個問題的方案有多種多樣… 

 

模型的實現——算法(Algorithm)

我們有了數據,有了學習模型的策略,然後就要開始去構造模型了,如果模型的基本形式有了,就是一個優化模型參數的問題了。如果學習過確定性模型的朋友,優化並不陌生,但是優化過程往往是複雜的,面對複雜的數學優化問題我們通常難以通過簡單的求導獲得最終的結果,所以就要構造一系列的算法。

我們的目標是讓算法儘量高效,更少的計算機內存代價,更快的運算速度,更有效的參數優化結果…

 

點評: 在進行機器學習時,就只要把握住模型、策略和算法這三個要點即可。商業決策的基礎是對客觀環境進行描述,我們用數學模型去描述去預測,所以要採取一定的策略選擇合適的模型,而模型的構造本質是數學參數的優化問題,在大數據的環境下要構造合適的算法去解決對應的優化問題,這就是整個機器學習的方法構造理念。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章