昨天有些私事,今天補過。
統計學習方法 李航:
Day 1:
統計學習主要是由:監督學習(supervised learning)、非監督學習、半監督學習、強化學習組成,主要應用監督學習。
監督學習,主要由數據,模型、算法組成。給定已知的輸入與輸出,通過其統計規律,得出其相關關係,再預測未知,即爲監督學習。
P(x,y)聯合概率分佈,統計其分佈規律,y=f(x)決策函數。
監督學習是利用訓練數據集給出一個模型,再用模型對數據進行預測,由於訓練數據集是由人工給出的,所以稱爲監督學習。
統計學習的目標在於從假設空間中選取最優模型。
損失函數(代價函數)用於衡量預測錯誤的程度。0-1損失,平均損失、絕對損失等。
經驗損失是由於學習數據過程中積累的經驗:
經驗風險進行矯正:經驗風險最小化,結構風險最小化。
可能會有由於模型結構複雜而造成損失過高的情況,爲此引入結構風險:
從而由這兩種風險定義,監督學習就定義爲:
經驗風險與結構風險最小的最優問題,這時,經驗或結構風險函數是最優化的目標函數。