號稱能打敗MLP的KAN到底行不行?數學核心原理全面解析

前幾天火爆的Kolmogorov-Arnold Networks是具有開創性,目前整個人工智能社區都只關注一件事LLM。我們很少看到有挑戰人工智能基本原理的論文了,但這篇論文給了我們新的方向。

mlp或多層感知位於AI架構的最底部,幾乎是每個深度學習架構的一部分。而KAN直接挑戰了這一基礎,並且也挑戰了這些模型的黑箱性質。

也許你看到了很多關於KAN的報告,但是裏面只是簡單的描述性介紹,對於他的運行原理還是不清楚,所以我們這篇文章將涉及大量的數學知識,主要介紹KAN背後的數學原理。

KAN

Kolmogorov-Arnold Networks引入了一種基於Kolmogorov-Arnold表示定理的新型神經網絡架構,爲傳統的多層感知器(mlp)提供了一種有前途的替代方案。

mlp在節點(“神經元”)上有固定的激活函數,而kan在邊緣(“權重”)上有可學習的激活函數。kan根本沒有線性權重,每個權重參數都被參數化爲樣條的單變量函數。這個看似簡單的改變使得KANs在準確性和可解釋性方面優於mlp。KANs是mlp的有希望的替代品,爲進一步改進當今嚴重依賴mlp的深度學習模型提供了機會。

上面論文的原文,根據論文在數據擬合和PDE求解方面,更小的kan與更大的mlp相當或更好。所以kan可能比mlp擁有更快的神經縮放定律。並且KANs可以直觀地可視化,大大提高了可解釋性。

論文圍繞函數逼近的Kolmogorov-Arnold表示定理的性質展開,這是這篇論文的全部前提。

表示定理基礎:函數被分解成更簡單的函數,然後使用神經網絡進行近似。

平滑性和連續性:目標是確保原始多元函數的平滑性有效地轉化爲神經網絡近似。

空間填充曲線:函數跨維度的屬性,特別是關注在近似過程中如何保持連續性和其他函數屬性或轉換。

 

https://avoid.overfit.cn/post/6ee2307e614b462f9c9aac26ef12252d

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章