機器學習(Mitchell)1

Day 1

機器學習所關注的問題是:計算機如何根據經驗的累加提升自己的性能?

1.1學習問題的描述:

定義:  對於某類任務 T 和性能度量 P,如果一個計算機程序在 T 上以 P 衡量的性能隨着經驗 E 而自我完善,那麼我們稱這個計算機程序在從經驗 E 學習。 

定義一個學習問題:

任務的種類,衡量任務提升的標準,檢驗的來源。

1.2設計一個學習系統

選取訓練經驗的類別:訓練經驗是否能給訓練決策提供直接或者間接的反饋。(信用配分:考慮每一次走子對最終的結果的貢獻程度。但由於其期間變量太多,不準確。所以一般考慮直接訓練反饋。)
學習器可以在多大程度上控制訓練樣例序列:訓練經驗是以超乎學習器控制的隨機過程提供的;學習器可向施教者提出不同類型的查詢;以及學習器通過自動探索環境來蒐集訓練樣例。這些主要是將學習器與施教者之間的相互關係。
訓練樣例的分佈能多好地表示實例分佈,而最終系統的性能 P 是通過後者來衡量的:是指由於訓練經驗與最終測試的的樣例分佈不同,導致學習效果不好。【舉例來說,你學習了一個學期的量子力學,結果期末考試考的全都是量子電動力學,雖然你的學習方法木有問題,學習到的東西也沒錯,但你的學習目標卻沒拿到。】

V代表目標函數,其包含一個重要的權衡過程。越有表徵力的描述越有更多更明顯的數據。


最小均方法(LMS方法):即通過調整權重,減小訓練數據誤差。
至此,學習系統的設計就完工了,其包含四個模塊:
執行系統(performing system):用學會的目標函數解決給定的任務。
鑑定器(critic):以對弈的路線或者歷史記錄作爲輸入,輸出目標函數的一系列訓練樣例,每一個訓練樣例對應路線中的某個棋盤狀態和目標函數給這個樣例的評估值Vtrain
泛化器(Generalizer),它以訓練樣例作爲輸入,輸出一個假設,作爲它對目標函數的估計。它從特定的訓練樣例中泛化,猜測一個一般函數,使其能夠覆蓋這些樣例以及樣例之外的情形。在我們的例子中,泛化器對應 LMS 算法,輸出假設是用學習到的權值 w0 ,..., w6描述的函數Vˆ。 
實驗生成器(Experiment Generator)它以當前的假設(當前學到的函數)作爲輸入,輸出一個新的問題(例如,最初的棋局)供執行系統去探索。它的角色是挑選新的練習問題,以使整個系統的學習速率最大化。在我們的例子中,實驗生成器採用了非常簡單的策略:它總是給出一個同樣的初始棋局來開始新的一盤棋。更完善的策略可能致力於精心設計棋子位置以探索棋盤空間的特定區域。 

自始至終,本書都貫穿着這種把學習問題視爲搜索問題的看法,從而通過搜索策略和學習器探索的搜索空間的內在結構來刻畫學習方法。
機器學習致力於研究建立能夠根據經驗自我提高處理性能的計算機程序。本章的要點包括: 
微笑  機器學習算法在很多應用領域被證明有很大的實用價值。它們在以下方面特別有用:(a)數據挖掘問題,即從大量數據中發現可能包含在其中的有價值的規律(例如,從患者數據庫中分析治療的結果,或者從財務數據中得到信用貸款的普遍規則);(b)在某些困難的領域中,人們可能還不具有開發出高效的算法所需的知識(比如,從圖像庫中識別出人臉);(c)計算機程序必須動態地適應變化的領域(例如,在原料供給變化的環境下進行生產過程控制,或適應個人閱讀興趣的變化)。 
•  機器學習從不同的學科吸收概念,包括人工智能,概率和統計,計算複雜性,信息論,心理學和神經生物學、控制論、以及哲學。 
•  一個完整定義的學習問題需要一個明確界定的任務、性能度量標準以及訓練經驗的來源。 
•  機器學習算法的設計過程中包含許多選擇,包括選擇訓練經驗的類型、要學習的目標函數、該目標函數的表示形式、以及從訓練樣例中學習目標函數的算法。 

•  學習的過程即搜索的過程,搜索包含可能假設的空間,使得到的假設最符合已有的訓練樣例和其他先驗的約束或知識。本書的大部分內容圍繞着搜索各種假設空間(例如,包含數值函數、神經網絡、決策樹、符號規則的空間)的不同學習方法,和理論上這些搜索方法在什麼條件下會收斂到最佳假設。 

微笑

*有很多關於機器學習最新研究成果的優秀資源可供閱讀。相關的雜誌包括《機器學習》(Machine Learning),《神經計算》(Neural Computation),《神經網絡》(Neural Networks),《美國統計協會期刊》(Journal of the American Statistical Association)和《IEEE 模式識別和機器智能學報》(IEEE Transactions on Pattern Analysis and Machine Intelligence)。也有大量的年會覆蓋了機器學習的各個方面,包括國際機器學習會議(ICML),神經信息處理系統
(NIPS),計算學習理論會議(CCLT),國際遺傳算法會議(ICGA),國際知識發現和數據挖掘會議(ICKDD),歐洲機器學習會議(ECML)等。 

第一章主要是序言,講了西洋棋學習的算法以及實現。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章