專訪NeurIPS “新方向”獎得主：“負面結果”如何影響深度學習？

????點擊上方藍字星標“Robinly”，獲取更多NeurIPS重磅訪談

Robin.ly 是立足硅谷的視頻內容平臺，服務全球工程師和研究人員，通過與知名人工智能科學家、創業者、投資人和領導者的深度對話和現場交流活動，傳播行業動態和商業技能，打造人才全方位競爭力。

“傑出新方向論文獎”（Outstanding New Directions Paper Award）是今年NeurIPS大會特別增設的獎項，以此表彰在未來研究創新路徑方面作出貢獻的研究人員。該獎得主是來自卡耐基梅隆大學的博士生Vaishnavh Nagarajan和他的導師J. Zico Kolter教授。他們的論文“Uniform convergence may be unable to explain generalization in deep learning”另闢蹊徑，通過證實過度依賴“一致收斂”工具的負面結果，引發了對深度學習研究方向和方法更高層面的思考。

Robin.ly在大會現場特邀獲得者Vaishnavh Nagarajan和J. Zico Kolter教授獨家對話，分享他們在深度學習理論方面的研究成果和思考。Vaishnavh是卡耐基梅隆大學計算機系5年級博士生，主要研究方向是機器學習與人工智能的算法及理論。J. Zico Kolter是該系的副教授，同時兼任博世人工智能中心首席科學家。

Vaishnavh Nagarajan（右）和J. Zico Kolter教授（左）在NeurIPS 2019大會接受Robin.ly專訪

大會評審推薦理由：“論文展示了一些負面結果，表明當前對深度學習算法基於範數的很多泛化邊界描述方法並不能達到所聲稱的效果。論文提出，繼續依賴雙面一致收斂性的泛化邊界描述方法無法獲得預期的效果。雖然本論文沒有解決，也並不意圖解決深度神經網絡中的泛化性問題，其結論仍然爲整個領域指出了針對同一問題嘗試其他方法的必要性。”

論文鏈接：

https://arxiv.org/abs/1902.04742

下文爲Robin.ly主持人Margaret Laffan與Vaishnavh Nagarajan和Zico Kolter教授的訪談實錄。完整訪談視頻見文末。

長按二維碼或點擊“閱讀原文”

獲取更多論文信息和英文訪談實錄

深度學習中的“泛化難題”

Margaret Laffan: 恭喜你們獲得“傑出新方向論文獎”！能簡單介紹一下這篇論文嗎?

Vaishnavh Ganarajan:

在這篇論文中，我們研究了深度學習理論中最大的開放性挑戰之一，“泛化難題（generalization puzzle）”。當前的很多深度網絡模型擁有比訓練數據點還要多的參數，包括標準輸入在內的經典學習理論表明，這些模型在未經訓練的數據集上的表現應該比較差。然而，我們通過實踐觀察到，這些模型在測試數據上獲得了最高級的泛化性能。對這種違反直覺的行爲的探究就是所謂的“泛化難題”。許多理論工作試圖用“一致收斂（uniform convergence）”的特殊工具來揭開泛化難題的面紗。然而，儘管已經做了很多工作，我們仍然沒有找到確切答案。於是在這項工作中，我們退後了一步思考，認爲“一致收斂”的工具可能並不能真正幫助我們解開這個謎題。這是一個高層次的信息，我們也許應該嘗試使用一致收斂之外的其他數學工具。

Margaret Laffan: 其他數學工具指的是什麼？

Vaishnavh Ganarajan:

有很多，比如算法穩定性(Algorithmic stability)，但目前還不清楚這些方法是否有效。我認爲我們可能必須從零開始構建一個完全不同的工具。也許可以使用我們在論文中提供的一些反例，也就是一致收斂失敗時的例子，從而獲得一個完全不同的工具，甚至可以對一些現有的工具進行更巧妙的改進。

NeurIPS 2019“傑出新方向”論文獎，來源：NeurIPS 2019

Margaret Laffan: 泛化有哪些應用？

Vaishnavh Ganarajan:

泛化是機器學習或深度學習最基本的目標之一，即在一個訓練數據集上訓練一個模型，該模型在新的數據集也能有良好的表現。我們已經看到深度學習能夠以某種方式實現這個目標。爲了不斷優化深度學習算法，我們需要理解這些算法在泛化方面究竟實現了什麼樣的功能。這就是這套工作的重要性所在，能夠近一步增加我們對系統優化過程的基本理解。

“負面結果”的意義

Margaret Laffan: Zico，從你的角度來看，爲什麼你們的論文會獲獎？這項研究最大的貢獻是什麼?

J Zico Kolter:

這項研究的重點在於，我們實際上得到的是一個負面的結果。我們看到有些方法是行不通的，這反而是件好事。因爲現在人工智能正處於一個似乎萬事都行得通的時代，但是我們仍然不明白其中涉及的很多基本數學原理。負面的結果也會推動一個領域向前發展，這就相當於提供了一個路標，可以引領深度學習社區向一個不同的方向邁進。對我來說，這篇論文最有趣的地方在於，它提供了改變研究方向以及改變我們如何思考問題的可能性，如此一來，也有可能改變我們理解深度學習的角度。

Margaret Laffan: Vaishnavh，你的同行如何看到你的這篇論文？

Vaishnavh Ganarajan:

我和讀過這篇論文的人進行了很多激動人心的討論，有些人持有不同意見，有些則對我們的研究結果感到很驚訝。包括我在內的很多人都在通過研究基於一致收斂的工具來理解泛化，我也發表過相關的論文。但是現在我們得到了一個負面結果，這可能有點令人困惑。但很多人也意識到，該結論給出了對當前工作推動作用的高層次想法。

圖示：研究發現，來源：Vaishnavh Ganarajan

研究侷限性

Margaret Laffan: 你目前的研究有什麼侷限性嗎？對未來的研究有什麼打算？

Vaishnavh Ganarajan:

我想強調兩方面的侷限性。首先，我們在某些環境設置中得到了負面的結果，但是並不能斷言所有環境設置都會帶來負面結果，但我們希望這至少可以表明該工具可能無法在一般情況下使用。

其次，我們實際上並沒有解決這個難題或提供其他替代方案，而是提供了關於現有工具的負面結果。所以在未來，我們非常希望同行能利用我們論文中的知識開發新的學習工具來解答這個問題。在今後的工作中，我會努力跳出這個一致收斂的工具的限制來理解泛化難題。

深度學習的理論研究

Margaret Laffan: Vaishnavh，是什麼讓你對人工智能、深度學習、機器學習產生了興趣?

Vaishnavh Ganarajan:

我最初的研究領域是經典學習理論，研究機器學習理論基礎，但與此同時，深度學習正變得越來越受歡迎。深度學習真正吸引我的是當時理論層面存在的真空以及深度學習本身所能造成的影響。所以，從事深度學習理論方面的工作，不僅滿足了我對理論研究的熱愛，也會幫助我在這一方向上產生一些影響。

Margaret Laffan: Zico, 能和我們分享一下你和學生的研究方向和研究進展嗎？

J Zico Kolter:

我認爲關於深度學習最令人興奮的事情之一，是存在廣泛的理論性工作，這實際上正是深度學習所缺乏的。理論性研究與應用研究在機器學習中相互交織的，密不可分。我們開發的理論工具可以與應用研究很好的結合，共同推動這個領域向前發展。

我很高興能帶領一組學生攻克這些難題。一些學生可以關注更多的理論問題，重點分析深度學習背後的數學原理，而另一些可以專注於更多的應用問題，比如如何將研究結果用於智能能源系統？我有一個學生正在探索能否把研究結果應用到核聚變中。在博世人工智能中心，我們也一直在積極研究人工智能的潛在應用，如何使人工智能在現實世界中的魯棒性更強，更容易部署。在這個領域的成熟過程中，我更希望看到更多理論方面的信息，並最終完成更多有實際應用的工作，獲得成功和反饋，並催化新理論的誕生。

Vaishnavh Nagarajan（右）和J. Zico Kolter教授（左）在NeurIPS 2019大會接受Robin.ly專訪

人工智能的發展方向

Margaret Laffan: Zico，從研究角度來看，你認爲在接下來的幾年裏，人工智能這個領域會發展到什麼程度?

J Zico Kolter:

我認爲預測人工智能的未來是很難的。當深度學習革命發生時，我已經在機器學習領域站穩了腳跟，也從來沒有想過我們會達到現在的水平。所以對於人工智能的問題我不敢做出任何斷言。

如果讓我猜測該領域的發展方向，我想我們正達到這樣一個點：從深度學習獲得的工具和經驗越來越實用，並且能夠應用於越來越多的結構化領域，也會更多地受到經典編程的影響。所以我們不應該繼續把深度學習當作一個“黑盒子“ -- 只是結合了很多線性運算符與非線性運算符，進行很多次迭代。我們應該更多的進行這樣的思考：當通用程序只包含未知參數，我們要如何學習這些參數？當涉及到經典編程的結構互操作性，以及機器學習的靈活性和端到端數據驅動的本質時，我們如何將結構化編程與一些元數據結合在一起，從而在兩個領域都獲得最佳結果? 我認爲這兩件事在未來的機器學習工作中可以結合起來，也是我最期待能夠進一步推進的。（完）

關注Robin.ly “Leaders In AI” Podcast

收聽完整英文訪談