本週AI熱點回顧:何愷明RegNet超越EfficientNet、數學難題“abc猜想”封印終被開啓、微軟麻將 AI 論文發佈...

01

何愷明團隊最新力作RegNet:

超越EfficientNet,GPU上提速5倍

還是熟悉的團隊,還是熟悉的署名,Facebook AI實驗室,推陳出新挑戰新的網絡設計範式。熟悉的Ross,熟悉的何愷明,他們帶來全新的——RegNet。

不僅網絡設計範式與當前主流“背道而馳”:簡單、易理解的模型,也可以hold住高計算量。而且在類似的條件下,性能還要優於EfficientNet,在GPU上的速度還提高了5倍!

新的網絡設計範式,結合了手動設計網絡和神經網絡搜索 (NAS)的優點:和手動設計網絡一樣,其目標是可解釋性,可以描述一些簡單網絡的一般設計原則,並在各種設置中泛化。又和NAS一樣,能利用半自動過程,來找到易於理解、構建和泛化的簡單模型。

論文毫無疑問也中了CVPR 2020。

三組實驗對比,近乎“大滿貫”,實驗在ImageNet數據集上進行,目標非常清晰:挑戰各種環境下的神經網絡。

與一衆流行移動端神經網絡的比較結果如下所示。

上表就是600MF的RegNet,與這些網絡比較的結果。可以看出,無論是基於手動設計還是NAS的網絡,RegNe的表現都很出色。

何愷明團隊強調,RegNet模型使用基本的100 epoch調度(schedule),除了權重衰減外,沒有使用任何正則化。

而大多數移動網絡使用更長的調度,並進行了各種增強,例如深度監督、Cutout、DropPath等等。

論文地址:
https://arxiv.org/pdf/2003.13678.pdf

信息來源:量子位

02

十行代碼讓你的單機“影分身”,分佈式訓練速度快到飛起

參數服務器是分佈式訓練領域普遍採用的編程架構,主要包含Server和Worker兩個部分,其中Server負責參數的存儲和更新,而Worker負責訓練。

飛槳的參數服務器功能也是基於這種經典的架構進行設計和開發的,同時在這基礎上進行了SGD(Stochastic Gradient Descent)算法的創新(Geometric Stochastic Gradient Descent)。當前經過大量的實驗驗證,最佳的方案是每臺機器上啓動Server和Worker兩個進程,而一個Worker進程中可以包含多個用於訓練的線程。

飛槳參數服務器功能支持三種模式,分別是同步訓練模式、異步訓練模式和GEO異步訓練模式。

飛槳的分佈式訓練功能不僅包含參數服務器(同步、異步、GEO)模式,還包含collective、hybrid等其它模式。爲了能讓開發者們方便得使用這些功能,飛槳的工程師們非常貼心的專門爲分佈式訓練設計了一套FleetAPI接口。如下圖所示,使用FleetAPI可以輕鬆的將原先的單機訓練轉換爲分佈式參數服務器模式:

  1. 使用RoleMaker爲參與訓練的機器創建Worker和Server進程。RoleMaker有多種實現可適配用戶的Kubernetes、MPI等環境。

  2. 使用Strategy和distributed_optimizer配置訓練模式、優化函數以及計算圖的拆分方案。在拆分計算圖的過程中,Server和Worker中會被添加用於相互通信的算子。

  3. 初始化Worker和Server進程。

FleetAPI功能示意圖

具體操作方法請參見下面的代碼示例。

如下爲模型單機訓練的代碼,爲了簡化說明,這裏省略了模型網絡定義和數據讀取等部分的代碼。

exe = Executor(place)
optimizer = optimizer.Adam(learning_rate=0.001)optimizer.minimize(avg_cost)exe.run(default_startup_program())
for batch_id, data in enumerate(train_reader()):avg_loss_value, auc_value = exe.run(main_program(), feed=feeder.feed(data))

用戶只需要加入十行代碼即可將上面的單機訓練過程轉換爲分佈式訓練:

exe = Executor(place)#設置節點角色role = role_maker.PaddleCloudRoleMaker()fleet.init(role)optimizer = optimizer.Adam(learning_rate=0.001)#配置策略strategy = StrategyFactory.create_sync_strategy()optimizer = fleet.distributed_optimizer(optimizer, strategy)optimizer.minimize(avg_cost)# 初始化並運行Server進程if fleet.is_server():   fleet.init_server()   fleet.run_server()# 初始化並運行Worker進程if fleet.is_worker():   fleet.init_worker()exe.run(fleet.startup_program)for batch_id, data in enumerate(train_reader()):     avg_loss_value, auc_value = exe.run(fleet.main_program, feed=feeder.feed(data))# 通知Server停止監聽Worker請求fleet.stop_worker()

如下所示,在詞向量Word2Vector模型上,採用GEO訓練模式的飛槳分佈式訓練的訓練速度能夠超越同類最優產品 18倍

 Word2Vector模型性能示意圖

信息來源:飛槳PaddlePaddle

03

數學難題“abc猜想”封印終被開啓,望月新一論文終獲發表

京都大學4月3日宣佈,該校數理解析研究所的教授望月新一(51歲)成功證明了30多年未被解決的數學難題“ABC猜想”。望月的論文通過了該研究所編撰的國際專業期刊《PRIMS》的審查並被採用。

該研究所評價稱“解決了重要且困難的問題”。

刊登在期刊上的是望月新構築的4篇關於“宇宙際Teichmüller理論”的論文,長達600頁,從中得出的結論之一是能證明ABC猜想。據稱還有助於證明關於整數的其他未解問題。

事實上,早在2012年,日本數學家望月新一(Shinichi Mochizuki)就在京都大學的數學系主頁上上傳了4篇論文,開放公衆下載。

總長達500多頁的論文(當代數學論文多爲10~20頁),裏面充滿了各種奇形怪狀的符號,以及各種奇葩的定義名稱,這是望月十幾年前從數學界銷聲匿跡之後的首次露面

望月論文一角

這次的“露面”,望月也帶來了個“重磅炸彈”,他宣稱自己已經解決了數學史上最富傳奇色彩的未解猜想:ABC猜想一時間,所有人都瘋了般,紛紛去下載望月的論文來一探究竟,然而,卻沒有一個人能看得懂,就連華裔天才數學家陶哲軒也表示沒看懂。

在論文中,望月自己構造了一個新的龐大的理論體系,並且命名爲“宇宙際Teichmüller理論(簡稱IUT理論),定義了各種前所未有的神祕術語,比如“宇宙暗邊際之極”、“霍奇影院(Hodge Theater)、“外星算數全純結構(alien arithmetic holomorphic structures)等。

其中,諾丁漢大學教授Ivan Fesenko在2014年就說他已經確認了證明的正確性,並對望月的工作給予了高度的評價,Fesenko認爲,望月完全可以與代數幾何的上帝格羅滕迪克相提並論,他說:“望月新一出現後,世界上就只有兩種數學,望月之前的數學和望月之後的數學。

abc猜想,也稱Oesterlé–Masser猜想,最先由喬瑟夫·奧斯達利(Joseph Oesterlé)和大衛·馬瑟(David Masser)在1985年提出。用三個相關的正整數a,b和c(滿足a + b = c)聲明此猜想(因此得名abc猜想)

對於一個正整數n,找到它的所有質因數,把它們乘起來,得到的數叫做n的根基rad(n)。比如,60的質因數是2、3、5,所以rad(60) = 30.


假如有三個互質的正整數abc,c=a+b,那麼c 通常小於rad(abc)。比如,a=2,b=7,c=a+b=9,這三個數互質;那麼,abc=126,rad(126) = 42, 42>9.

有關望月新一所有的論文列表pdf:

http://www.kurims.kyoto-u.ac.jp/~motizuki/ronbun-list.pdf

信息來源:超級數學建模

04

微軟麻將 AI 論文發佈,首次公開技術細節

還記得去年 8 月微軟發佈的「雀神AI」Suphx 嗎?今天,該研究團隊在 arXiv 上發佈了更新版的論文,進一步介紹了 Suphx 背後的技術。2019 年 8 月 29 日,微軟發佈了一個名爲 Suphx(超級鳳凰)的「麻將 AI」,在專業的麻將競技平臺上,Suphx 的實力勝過了頂級人類選手的平均水平。

當時一經發布,Suphx 便引起了廣泛的關注,不僅是人工智能領域,不少麻將愛好者也都趕來圍觀討論。人們評價該系統比戰勝了職業圍棋手的 AlphaGo 更復雜,被譽爲「最強日麻人工智能」。

麻將的信息集數目和信息集平均大小

超過了橋牌、德撲和圍棋

近日,該系統的研發團隊在 arXiv 上發表了論文《Suphx: Mastering Mahjong with Deep Reinforcement Learning》(《Suphx:掌握麻將與深度強化學習》),更深一步地講解了 Suphx 背後的技術。

Suphx 系統利用深度強化學習,從 5000 場比賽中學習、吸取經驗之後,在日本專業的麻將競技平臺「天鳳」上擊敗了衆多麻將玩家,取得平臺「特上房」的最高段位十段。

Suphx 在天鳳平臺的段位,遠高於其它麻將 AI

從論文中得知,Suphx 在進一步的學習下,水平也更進一步。在擁有超過 35 萬位玩家的「天鳳」平臺上,被官方評爲水平超越 99.99% 以上玩家,這是計算機程序首次超過麻將中大多數頂級人類玩家。

Suphx 包含一系列卷積神經網絡,它學習了五種模型來處理不同的場景,包括 discard(丟棄模型)、Riichi 模型、chow 模型、Pong 模型和 Kong 模型。在此基礎上,Suphx 採用另一種基於規則的模型,來決定是否宣佈贏家並進行下一輪,檢查是否贏牌可以從其他玩家丟棄的牌中來判斷,或者從排牆上抽出來的牌來判斷。

在「天鳳」平臺與人類玩家進行了超過 5760 場比賽後,Suphx 創造了十段的紀錄——大約只有 180 個玩家曾經達到過這個水平。而 Suphx 穩定的排名是 8.74 段(人類玩家最高水平是 7.4 段)。

《Suphx:掌握麻將與深度強化學習》論文地址:

https://arxiv.org/pdf/2003.13590.pdf

信息來源:HyperAI超神經

05

本週論文推薦

【CVPR2020|百度】ActBERT: Learning Global-Local Video-Text Representations

作者:Linchao Zhu, Yi Yang

論文介紹:

受到BERT在自我監督訓練中的啓發,百度團隊對視頻和文字進行類似的聯合建模, 並基於敘述性視頻進行視頻和文本對應關係進行研究。其中對齊的文本是通過現成的自動語音識別功能提供的,這些敘述性視頻是進行視頻文本關係研究的豐富數據來源。ActBERT加強了視頻文字特徵,可以發掘到細粒度的物體以及全局動作意圖。百度團隊在許多視頻和語言任務上驗證了ActBERT的泛化能力,比如文本視頻片段檢索、視頻字幕生成、視頻問題解答、動作分段和動作片段定位等,ActBERT明顯優於最新的一些視頻文字處理算法,進一步證明了它在視頻文本特徵學習中的優越性。

END

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章