我們已經證明了一些在有限假設集下成立的結論。但很多假設類實際包含了無限個函數,這種情況我們是否可以給出相似的結論?
讓我們先舉個不恰當的例子,它有助於我們的直觀理解。
假設集H 的空間由d 個實參數控制。我們用電腦存儲這些實數,而在電腦中一個double類型的實數需要用64位來表示。所以我們的假設類中包含了264d 個假設,由有效假設的結論可知,要保證ε(h^)≤ε(h∗)+2γ 的概率大於1−δ ,樣本數量必須滿足m≥O(1γ2log264dδ)=O(dγ2log1δ)=Oγ,δ(d) ,因此樣本數量和模型參數是線性相關。
用64位浮動點的例子來表示模型參數可能不是很正確,但得出的結論是完全正確的:爲了實現訓練誤差最小化,訓練樣本數和假設類的參數個數線性相關。
VC維(Vapnik-Chervonenkis dimension)的定義:對於任一假設集H ,VC(H) 表示能被假設集H 分割的最大樣本集的樣本數。
例如,含有三個點的樣本集:
對於樣本所有可能的情況,假設集H 是否都能分割?答案是yes。
而對於4個樣本點的情況,咋不能完全分割。
所以VC(H)=3
定理:對任一假設集H ,令d=VC(H) ,概率大於1−δ ,有:
|ε(h)−ε^(h)|≤O(dmlogmd+1mlog1δ−−−−−−−−−−−−−−−−√)
還有:
ε(h^)≤ε(h∗)+O(dmlogmd+1mlog1δ−−−−−−−−−−−−−−−−√)
即是說,如果假設類的VC維是有限數,當樣本數m 足夠大時,假設將會一致收斂。即可以用最優訓練誤差ε(h∗) 表示泛化誤差ε(h) 的範圍。
同理要使|ε(h)−ε^(h)|≤γ 對所有假設成立的概率至少爲1−δ ,樣本數量m 必須滿足:
m=Oγ,δ(d).
由於VC維一般與假設集的參數個數線性相關,所以樣本數(樣本複雜度)與假設集的參數個數線性相關。