同盾李曉林:解決時代的困境,知識將成爲AI3.0的“第四要素”

儘管已經離開講臺,李曉林身上仍留着些許象牙塔內的痕跡。

之前,他是學界精英,佛羅里達大學終身教授;現在,他是同盾科技人工智能研究院的院長。平時與人交談時,他語言溫和,但一旦涉及專業問題時,立即進入學者氣場。

在談及知識聯邦相關話題時,這種轉變尤爲明顯。

這是他帶領研究院夥伴們提出的理論體系,希望一種更安全的方式,利用好現有數據,搭建一個開放的智能大腦,最終推動人工智能3.0時代的到來。

 

打破數據孤島

上世紀80年代,中國人工智能專家姚期智曾提出過“百萬富翁”假設:兩個百萬富翁在街頭相遇,他們想知道誰更有錢,但是出於隱私,又不想讓對方知道自己到底擁有多少財富。

姚期智提出用“多方安全計算”方式來解決這一問題。如今的人工智能領域,正面臨類似的困境,人工智能的發展進步,離不開大數據,但大家對數據邊界越發重視,又不願數據離開本地。

在李曉林教授看來,這是AI 2.0時代必須要解決的困境。他認爲,我們當下經歷的人工智能熱潮,興起於21世紀第二個十年初期,屬於AI 2.0時代,依託於深度學習理論。

AI 2.0的快速發展,主要依靠三個因素:算法、算力和大數據。深度學習提供算法,CPU和GPU提供算力,信息社會則儲存和提供足夠的數據。

李曉林舉例,谷歌的AlphaGo之所以能實現快速進化,便在於它一共學習了3000萬盤已有的棋局,自己跟自己又下了3000萬盤。

這種依靠海量數據訓練的人工智能模式,經過初期野蠻發展後,正面臨無數據可用的困境。

原來主要來自兩個方面,首先是數據不足,擁有海量數據的往往只有少數行業,大多數領域的數據往往有限,或者數據質量較差。其次則是“數據孤島”和數據安全使得數據共享越發困難。數據在不同公司間,甚至同一家公司內部,都難以實現無障礙流動。

而數據帶來的隱私暴露或數據泄露,使得加強保護數據安全和隱私保護,成爲各國政府的共同選擇。

2018年5月25日,歐盟《通用數據保護條例》(GDPR)正式生效,這個堪稱目前世界範圍內最嚴格的用戶數據保護條款,允許用戶對自己數據擁有完全自主的權利。而美國和中國正在制定類似的隱私和安全法案。

這些現象都預示着,AI 2.0時代,似乎即將因爲數據孤島與數據安全,陷入雙重困境。在同盾科技所在的金融科技領域,這一問題尤爲重要。銀行等金融機構,迫切想要提高風控水平,卻又對數據安全極端看重,甚至將其作爲立身之本。

2019年春天,李曉林加盟同盾科技後,出任合夥人、人工智能研究院院長,試圖通過“知識聯邦”技術,來解決這一問題。

當年冬天的網易未來大會上,同盾首次提出知識聯邦概念,它不是單一技術方法,而是一套層次化技術框架體系:將散落於不同機構或個人的數據聯合起來,轉換成有價值的知識,並在聯合過程中採用安全協議保護數據隱私。

這一理論提出後發展迅速,已經成長爲國內聯邦學習五大代表流派之一。

搭建數字技術生態

2017年,爲保障數據交換時的信息安全,保護個人隱私,谷歌公司的科學家在一篇文章裏首次提出聯邦學習概念。理論提出後不久,國內各互聯網公司紛紛搭建團隊,投入相關研究。

李曉林說,硅谷的競爭速度更像是古代戰場:你來一劍,我捅一刀,大家排兵佈陣慢慢打。而在中國,“基本是赤膊角鬥,相當激烈”。

根據國內媒體統計,目前聯邦學習在國內已經形成“五大流派”,分別是微衆銀行主打的聯邦學習,螞蟻金服主攻的共享智能,平安科技的聯邦智能,京東數科開展的異步聯邦學習研究,以及同盾科技推出的知識聯邦理論體系。

要在多方競爭中佔據一席之地,無疑需要具備獨特優勢。李曉林指出,知識聯邦比聯邦學習的範疇更大、更系統,更有層次,“聯邦學習是知識聯邦的一個子集。”

知識聯邦作爲一套技術框架體系,與聯邦學習、區塊鏈、隱私計算、安全多方計算等其它技術領域都緊密相關。這些單一技術,在知識聯邦的不同層面各自發揮作用,共同服務於數據“可用不可見”的大目標。

同盾發佈的知識聯邦白皮書顯示,知識聯邦具有三大優勢:第一是全樣本觸達。聯邦後機構間的數據,雖然各自爲所有者控制,由於可以觸達更多的數據,其性能甚至會超越維度有限數據的中心化聚集方式。

第二是數據不動模型動。聯邦後的原始數據保留在本地,計算和學習也發生在本地,中心節點僅對參與方模型知識進行安全的聚集。弱中心化模式達成了效率和安全之間的平衡,尤其適合在強監管行業應用。對銀行等金融機構來說,知識聯邦的應用前景尤爲廣闊。

第三是知識也可以安全的共享融合。比如參與方通過NLP構建本地的知識圖譜和各種網絡節點的關係,再通過知識聯邦來構建更完整的虛擬圖譜,這樣既能幫助識別欺詐團伙,又能提升企業徵信的風控模型。人工的知識也可以融入其中(human in the loop),自主自適應的構建和融合多源知識,提煉出最有效的洞見來做智能分析與決策。

李曉林說:“在知識聯邦的模式下,模型訓練時每個銀行和金融機構,各自的數據不需對外輸出,甚至連模型的參數都不用給到對方,只需要將模型梯度的變化加密後在密文空間裏安全的聚合。這樣攻擊者不能反推出源數據。”

基於知識聯邦理論體系,同盾科技推出了工業級應用產品智邦平臺(iBond),通過建立相應的任務聯盟,解決不同應用場景需求。

在2020年10月舉辦的全球人工智能大會智能金融高峯論壇上,同盾聯合浙江大學、復旦大學、百度大數據實驗室、360集團、平安科技、等學界業界等多家頂尖機構成立“知識聯邦產學研聯盟”,旨在實現數據安全前提下,共同構建優質數字技術生態。

李曉林認爲,按照目前人工智能發展態勢,2040年前後,人工智能將步入3.0時代,除數據、算力、算法三要素之外,知識要素將成爲第四要素。

開放智能大腦浮出水面

2020年11月,同盾人工智能研究院發佈知識聯邦技術體系下的數據安全交換(FLEX)協議,並於12月將其開源。該協議中包含一系列的約定,只要遵守這些約定,參與方就可以安全地加入到聯邦,無需擔心數據隱私會有泄漏風險,全面實現數據可用不可見。

協議背後,藏着李曉林和同盾對未來的野心。在李曉林看來,未來肯定不會只有知識聯邦一個聯邦平臺存在。

行業需要一套完整的聯邦數據安全交換標準,讓各個參與方在選擇使用聯邦平臺時有規可依,只要遵循相應標準,不同體系之間同樣可以實現數據交換,知識互通。

一旦參與機構(數據提供者)足夠多,聯邦規模足夠大,數據多樣性就有保障,也就會有更多機構(數據使用者)願意來使用聯邦服務,也會有更多科技型機構(模型和應用開發者)來提供豐富的算法、模型和應用。

屆時,知識聯邦可以充分發揮平臺作用,對參與機構提供的數據,以及科技機構提供的模型和應用進行評估,將數據作爲生產資料的價值發揮到最大。

李曉林將其稱之爲電商式的平臺,參與方在數據可用不可見的安全環境中,進行數據、模型應用的交換,甚至可以在區塊鏈等技術的保障下進行自由交易。而知識聯邦作爲平臺方,可以對參與方貢獻出的數據和模型評分。

良性循環就此建立,李曉林說,知識聯邦的應用範圍,也將不再侷限於某一個行業,而是有可能成爲貫穿各行各業的開放的智能大腦。

上世紀90年代,李曉林在浙大讀書時,人工智能尚是冷門專業。機器學習課堂上只有五六個學生,圖書館裏的資料大多是過期的油印本。如今的機器學習課堂,500人的教室常常坐滿,課上提出理論,課後甚至可以立刻做出樣品,一個學期的作業就可以做出自動駕駛的原型,行業應用不斷創新。

這一切都讓李曉林覺得,人工智能的下一個時代或許加速到來,在這其中,必然將有知識聯邦的身影。

聲明:文章不構成投資建議,轉載請註明來源與作者

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章