知識圖譜的下一步:知識指導的預訓練模型和圖神經網絡

知識圖譜作爲對數據進行結構化組織與體系化管理的核心技術之一,不僅改變了互聯網行業,也給信息與通信行業帶來了深刻變革。隨着5G與AR技術的興起,知識圖譜的發展出現了很多新的特點。近日,InfoQ記者在AICon全球人工智能與機器學習大會 北京 2019 現場採訪了華爲中央軟件院知識圖譜首席技術專家賈巖濤,他與我們分享了知識圖譜在信息通信行業的研究和應用重點,以及從非互聯網公司視角看到的知識圖譜未來的可能性。以下爲採訪問答實錄。

InfoQ:賈巖濤老師您好,非常高興這次能夠在AICon現場採訪到您。今天主要想跟您聊一聊知識圖譜領域的現狀和進展。首先能不能請您先介紹一下,您是什麼適合開始進入知識圖譜領域做相關研究的?

賈巖濤:我個人跟圖還是很有淵源的,我讀博時的研究方向就是圖論相關的,博士畢業之後我在2012年加入中科院計算所工作了5年,一直在做圖譜相關的研究工作。2011年的時候,我們的實驗室提了OpenIO的概念(Open Intelligent Ontology,開放智能本體),與後來Google提出的知識圖譜概念很像。到了2012年Google提出了知識圖譜的概念後,一下引起了工業界的巨大關注,後來我們發現,其實我們還算是一個先行者,在這之前就做了一些研究工作。2012到2017年,我一直在做一些研究與工程相關的東西。因爲知識圖譜本身並不是一個純研究問題,很多時候,圖譜的效果怎樣或者構建圖譜的方法是不是有效,還要經得起實踐的檢驗。所以知識圖譜的定位應該是在研究與工程實踐的中間地帶,二者都要兼顧。首先知識圖譜確實需要理論支撐,特別是當前自然語言處理的研究還並不成熟,工業界實踐追求的是規模要大、性能要達標,用戶體驗要好,這幾個需求的平衡很難把握。而且,工業界普遍會與實際的應用場景距離更近,且坐擁海量真實的數據。在知識圖譜這個方向上,我雖然專注了十幾年時間,但對此依然充滿熱情,相信還有很多待研究與待落地的東西。

InfoQ:您覺得在學術界做知識圖譜的研究,和在工業界做應用落地,有什麼特別不一樣的地方嗎?

賈巖濤:學術界,通常有一個公開數據集供大家實測,並不斷地提升在這個數據集上的效果。但是工業界很多數據集並不像學術界的評測數據那樣完美。工業界的數據集經常會暴露出更多問題,比如說同一個類型的實體很少,或者同一個use case下數據量不夠,比如根因分析、故障定位領域,不像互聯網的某些話題在網頁上可以找到大量數據 。怎麼針對這類真實的數據集做知識圖譜的構建,怎麼對數據進行大量的清洗工作,工業界更多在解決這些問題。總體來看,工業界更多是從應用和使用價值出發,自頂向下展開研發工作,通常只能覆蓋30%左右的問題;而學術界是從理論和科學問題出發,自底向上展開研究,可能研究60%左右的問題;中間還存在10%的Gap,這10%其實需要學術界與工業界聯合起來一起解決。知識圖譜領域近年來受到了工業界的廣泛關注,並輔以持續的投入,而學術界也有很多研究人員在從事相關的研究工作,例如國內外很多高校都開設了類似的研究方向,這樣可以從兩個層面更好的推動這個方向的發展。

InfoQ:華爲是什麼時候開始投入知識圖譜研究的?也是在2012年以後嗎?

賈巖濤:對,工業界包括華爲在內的很多公司,擁有大量數據,當出現一些歷史上解決不了的場景與新問題時,就會想嘗試一些新的解決手段。知識圖譜在2012年推出以後,從13-14年開始,國內各個高校與公司都開始進行初步的探索。只不過大家場景不太一樣,互聯網公司可能更關注搜索上的應用,如何幫助消費者提升互聯網搜索體驗,而像華爲這樣的信息與通訊廠商可能會關注運營商領域、消費者領域(尤其是手機、可穿戴智能設備等)等領域如何應用知識圖譜。公司內部爆發對圖譜的廣泛熱情,可能是從去年開始。我們知道,中文信息學會舉辦的知識圖譜大會CCKS也是從去年開始達到了七八百人這樣的參會者規模。公司各產品線越來越認識到知識圖譜的重要性,包括底層數據治理,上層應用設計,特別是一些原子化的設計,都在嘗試使用知識圖譜相關的技術。

華爲做知識圖譜有兩種思路,一種是比較短平快的,基於解決用戶實際問題的考慮來選擇構建哪些知識圖譜;另一個思路是偏長期規劃的,我們內部也在想圖譜本身是否能做一個基礎設施(知識中臺),通過圖譜來驅動資料的編寫、數據的規範化等。這個可能是一個更長期的過程,但是可以提高產品線乃至整個行業的知識管理和應用的水平。當大家都按照一定的schema約束與規範,來書寫知識以後,行業就會變得更加規範,資料本身的規範化爲將來的結構化帶來了巨大的便利。雖然這個過程耗時較久,但是從長期意義上講是戰略性的。所以,不僅構建知識圖譜、做知識推理,嘗試用圖譜作爲一箇中間的技術手段來驅動數據的治理、數據資料的編寫,也是業界,特別是一些特定領域企業可以採納的一個方案。

InfoQ:結合您的經驗和您這些年在業內看到的情況,您認爲當前知識圖譜相關技術處於什麼樣的發展階段了?它是否已經足夠成熟?

賈巖濤:現在逐漸開始有一些落地的場景,但實際上在研究層面還有大量問題需要攻克。我們在前幾個月系統性地對近幾年的國際頂級會議做了分析,發現每個階段都有各自的問題。比如在構建層面,近幾年大家比較關注的策略,包括弱監督、遠程監督、自監督的抽取方案,還有小樣本的抽取。推理層面集中在基於圖神經網絡、基於圖表示學習的研究,比如今年的神經網絡頂級會議NeurIPS上有一個關於圖神經網絡的Workshop,裏面有92篇論文都是跟圖神經網絡和圖表示學習相關的。圖表示學習是近幾年很火的一個方向,現在也逐漸具備落地的趨勢了。在知識建模的層面,大家正在不斷探索,比如事件的建模、動態知識的建模,近幾年也有一些比較亮眼的工作。應用層面,各行各業催生了不少新的知識圖譜應用,經典的三大應用就是搜索、問答和推薦,現在像智能運維、設備自動化部署後的解決方案講解等,都是很有意思的應用。

InfoQ:圖表示學習和圖神經網絡今年確實挺火的,您怎麼看待這兩個技術今年突然一下就火了?

賈巖濤:這是因爲剛好到了這樣的一個階段。就有點像有人在問,爲什麼知識圖譜近幾年越來越火?

在Gartner的技術曲線中,知識圖譜這幾年一直處於爬升期,Gartner預測知識圖譜再過5到10年纔會真正地有一個爆發的落地。我們內部分析認爲,首先近幾年人工智能火了,其中感知層的部分,比如圖像識別、視頻理解等,現在已經有大量的創業公司嘗試落地,包括安防領域的人臉識別,但在認知層方面,特別是自然語言理解,以及利用知識讓機器具備推理能力等方面,一直是一個空白。但人工智能火了以後,特別是阿爾法狗的出現,讓人們意識到了人工智能在認知層的進步。這些都是近幾年知識圖譜越來越火的重要因素。其次,數據本身越來越豐富,知識圖譜強調的規模大、實體數量多的特性有了數據基礎,這幾個因素共同促進了知識圖譜成爲熱點話題。

InfoQ:您覺得圖神經網絡的出現可以解決知識圖譜的什麼問題?

賈巖濤:我認爲圖神經網絡是另外一個空間,因爲圖是一種符號表示,圖神經網絡實際上是想把圖的符號化表示,轉到向量空間或者向量的語義空間裏面去做一些數值計算。這個計算最大的好處是,圖本身是符號,兩個點之間直接運算存在一定的困難,特別是兩個節點之間沒有直接的關聯關係的時候,但是轉化成向量以後,任意兩個節點之間都是可以做計算的。另外,圖有一層鄰居、兩層鄰居,以及諸如結構等價性等特徵,如何把圖的特性更好地表達出來,圖神經網絡是方式之一,因爲它可以把局部的特徵與全局的特徵,在一個優化函數裏面更好地度量出來。這樣,雖然每個節點是一個向量,但是這個向量是通過它的局部以及外圍,甚至是更遠的一些信息傳導來的,它的編碼能力會更強,可以直接用於計算,便於上層應用。

當然我們也要客觀地看待圖神經網絡。特別是它到底能夠編碼多少信息?圖本身關聯關係比較複雜,有多種類型的節點和多種類型的邊,本身的結構與內容信息在做完轉換以後可能會存在信息丟失的情況。同時,做完轉換以後,對於上層應用的可解釋性,當前在一定程度上也是缺乏的。

InfoQ:回顧過去這一年,知識圖譜在研究和落地這兩個方面,有什麼值得一提的進展嗎?

賈巖濤:在知識推理層面,圖表示學習和圖神經網絡的研究與應用是重要的進展之一。除了建模、構建、推理以外,還有一點值得一提的是應用層面,像自然語言領域,近幾年預訓練模型的興起,使得知識指導的自然語言理解再次成爲熱點。同時,自然語言處理中與常識相關的問答有待於基於知識進一步的提升效果。預訓練模型本身能夠反過來去驅動知識的應用,這是從去年至今大家都在爭相佈局的一個點。這兩個點是近期知識圖譜研究的熱點,從工業界角度來講,搜索、問答和推薦都在逐步應用,但是現在還有智能決策、情報分析、BI等的應用場景值得進一步關注。例如故障定位、智能運維,因爲其決策的鏈條更長,需要更多的專家經驗,難度也更大。

InfoQ:還是看過去這一年,知識圖譜領域是否有哪些方面做得不太好或者相對來說進展緩慢的?

賈巖濤:通過我們近幾年的調研發現,過程類圖譜的構建還沒有太多成型的方法。國外有一些研究機構從閱讀理解的角度去研究這類問題,但實際上,是不是要把它拆解到知識圖譜的實體粒度,現在研究的人很少。這部分現在依然是瓶頸,尤其是對於大量設備的操作、流程和規範這類知識的建模與抽取,還沒有太多的研究與關注。還有像小樣本的抽取和構建問題,現在也依然是公認的難題。

InfoQ:現階段知識圖譜在研究和落地應用方面,主要面對的技術挑戰是什麼?

賈巖濤:首先,數據本身的質量是需要長期建設的,每個文檔都存在差異,每個文檔都需要定義自己的抽取器,工作量非常大,現在還沒有一個統一的規範的方式來表達,所以數據本身的建設是一個長期的工作。另外,現在越來越多應用,其輸入不僅限於文本,還會有圖片音頻視頻等多模態的內容,我認爲這可能在未來三到五年內會有突破性的進展。更長期的挑戰仍然是常識的理解與應用方面,可能5到10年,甚至是更長的時間,纔會有一個比較好的解決方案。

InfoQ:NLP領域現在非常熱的預訓練模型如BERT,未來在知識圖譜有哪些應用的潛力?

賈巖濤:BERT是在一個很大的語料數據集上做訓練,能否在一個特定領域的語料數據集(比如運營商的所有文檔)上,做一個信息與通訊領域的BERT,這樣對運營商領域整體的理解或抽取或上層推理可以有一個很好的基礎。現在我們已經開始在BERT上做一些嘗試,不光是把它做到小型化,讓其在端側可用可推理;還有一個方向是把它應用在一些大的垂直領域上,做一些垂直領域相關的預訓練模型,這個模型一旦形成以後,就會成爲很好的財富。也有人把BERT本身看作知識,它沉澱下來的模型本身就是一些知識,這些知識就可以促進上層的其他應用,這可能也是未來比較重要的一個趨勢,至少是垂直領域數據比較廣的公司應該採用的方案。

InfoQ:您認爲當前知識圖譜行業存在泡沫嗎?

賈巖濤:業界現在有兩種觀點,一種是說,知識圖譜好像無所不能。這是因爲知識圖譜是另一個維度的數據處理方案。但是由於建設的圖譜是不完備的,而且很多知識如何去表達,三元組可能不夠,需要四元組、甚至多元組來表達,這又給抽取帶來了更多的難度。另一方面,存在相當數量的人羣對知識圖譜持悲觀態度,認爲各行各業的圖譜其技術基礎都是在重複造輪子,解決的問題也僅限於智能問答或個人助理這些應用。

實際上這兩種觀點都不是很可取,我們應該更理性地看待知識圖譜。就像我們在做圖譜技術落地的時候,也是懷着對技術本身的敬畏心,去瞄準一個能讓圖譜價值最大化的應用來開展工作。比如對於用戶最經常問到的問題類型,思考是否可以通過圖譜來簡化處理,讓圖譜技術充分發揮優勢。當圖譜在某些場景下不能很好地發揮作用時,我們可能需要跟學術界聯合做一些研究,嘗試催生一些新的方向或新的技術,這是需要一定的時間窗口的。我在今天的演講中一直在強調,圖譜的應用要分階段,先把應用打細,同時底層的構建也要分階段,有些階段可能是脫離不了人的,有些階段人可以少介入一些,二者之間是相輔相成的。現在5G跟AI很火,AI本身就包含圖譜,那麼5G跟圖譜之間是不是也有關聯?5G催生了很多AI的新應用,將來從多模態角度、從數據處理的角度都會提出一些新的訴求,可能就會催生另外一個維度的應用。從單模態的圖譜到多模態的圖譜,這個想象空間還是很大的,我們需要有一定的信心。

InfoQ:其實現在很多公司會構建一套自己的知識圖譜構建平臺和推理平臺,華爲也不例外,未來您覺得所有公司都會自己去做一套自己的平臺嗎?會不會有行業性的公共的知識圖譜平臺出現呢?

賈巖濤:事實上,中國中文信息學會語言與知識計算專委會正在嘗試去推出一些公共的標準或者平臺。比如中文開放知識圖譜聯盟OpenKG,其初衷是希望能把大家的力量凝聚起來,將共性技術平臺化並免費向社會開放,大家就可以在這個基礎上做相關的迭代,這對於整個方向的發展是非常有好處的。現在有很多數據在OpenKG網站上都可以下載到了,這樣一來,很多暫時還沒有數據的企業也可以基於這個平臺來展開工作,不一定從零開始,可能可以從1到10,直接省略掉部分階段。現在行業內可用、公開的知識圖譜工具和組件可能確實還不夠完善,希望未來有更多大企業或者標杆企業,能夠把自己的工具,無論是在公司內部開放,還是對整個行業開放。我認爲這是一個趨勢,大家合作共贏,每個公司面臨的問題或場景各有不同,但在大的場景方面仍存在一定的相似性。

採訪嘉賓介紹:

賈巖濤,華爲中央軟件院知識圖譜首席技術專家,曾任中科院計算所副研究員,開放網絡課題組組長。在國內外頂級和重要期刊上發表論文50餘篇,授權專利15個,出版知識計算相關專著1部。其主導設計與研發的知識圖譜自動構建工具多次在國際知識圖譜構建權威評測TAC-KBP中排名第一。CCF大數據專家委通訊委員,中文信息學會語言與知識計算專委會委員。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章