唐劉之辯:行業知識圖譜的schema構建的難點、重點與困惑

一、議題

昨日,阿里達摩院唐呈光老師與我就行業知識圖譜的schema的構建對於業務人員是不是有困難以及其中的難點或者耗時點做了一個簡短的討論,我覺得很有趣,發出來與大家一同思考。
唐:唐呈光,阿里巴巴算法專家小蜜對話開發平臺對話引擎負責人
劉:劉煥勇,中國科學院軟件研究所工程師、數據地平線算法總監

二、 正文

唐:煥勇,有個問題想和你探討一下,你覺得行業知識圖譜的schema的構建對於業務人員是不是有困難?這其中的難點或者耗時點,到底在哪裏?

劉:唐老師,簡單說兩點自己的拙見。

劉:1、是的,尤其是剛入行不久的業務小白,構造一個標準的知識本體都很難。業務人員需要需要了解什麼是主體、客體、複雜的怎麼拆分,什麼是屬性,屬性關係和實體關係怎麼去區分,等等,這個既需要了解細節的業務,也需要將業務抽離、抽象,這個對於業務人員來講是很難的。我覺得,知識架構師,知識產品經理是未來知識圖譜的一個十分必要的工種。

劉:2、難點的話,包括1)一個是對業務的梳理或者說理解,既需要有跳出來的宏觀把控,只有跳出來才能儘可能地建模場景元素,也需要對細節的把控,針對不同的需求,如問答、檢索等,制定不同的本體,這個要求比較高;2)另外一個就是動態的schema的問題,schema的版本都會一直變化,根據業務變化,也會根據自己對業務的認識而變化,如何儘可能地減少這種變化,也是一個難點。

唐:分析得很到位[強],你覺得從技術角度,我們能從哪方面發力,降低這個構建難度呢?

劉:是兩個域

劉:kg技術就是基於schema而展開的,是schema的後續操作。如果要做的話,那做shcema的自動生成,輔助schema的編輯?

唐:你覺得schema自動生成,這個技術的難點在哪裏?我們自己搞了半年,效果也不太好啊

劉:我反問一個問題,爲什麼事件抽取搞來搞去都是ace那8大類23小類

劉:schema不存在一個標準的benchmark去評測,所以說好與不好也很難講,現有的技術做不了太細的東西,可以籠統地搞一些出來,但業務不一定接受。

劉:換句話說,如果存在一種技術能夠自己把某個行業知識體系搭出來,那麼這個技術本身就相當於這個行業的專家水準,這是個悖論。

唐:因爲事件是動態的,事件的類別發展太快了,沒辦法實時更新覆蓋,這也導致事件不容易大範圍定義 也不容易標註,所以大家都在常用公開數據 在都認可的事件類別上做模型方法和研究。
唐:這是我的理解。

劉:這是一方面,一是因爲動態,類別發展太快,另一個是事件類型自身都是變化的,而且具有相對的主觀性,所以很難有統一的標準,現在雖然有很多基於抽象泛化的方法去生成schema,但效果很差。與此相類似,kg的schema也是一樣的,很難統一、很難細化、很難全量。

唐:那這個未來怎麼才能做到規模化應用呢?

劉:不過,選擇一個封閉的領域,找一個相對簡單的場景,做下理論研究還是可以的。

劉:這個未來會很未來【我比較悲觀】,規模化應用的話,還是上面說的,選擇一個封閉的領域,找一個相對簡單的場景去做小規模化,比如小蜜的問答,結構清晰的問答場景。

唐:明白

唐:我的感覺,現在的benchmark可以總結爲三種:一是業務人員從應用出發的評價標準;二是研究人員從方法模型上的評價標準;三是實際使用情況反應的評價標準;三種標準都有道理,但是是三個角度,gap還挺大

劉:[強],到位

三、總結

知識圖譜schema這個東西對於一個從無到有進行知識圖譜構建的人來說,是個十分頭疼的事情,無論是業務人員,還是技術人員,都存在諸多困惑,schema是對領域或者行業知識的一個高度抽象化建模,是個十分耗時的過程。對話中拋出幾個觀點,知識架構師,知識產品經理是未來知識圖譜 的一個十分必要的工種,技術人員用技術的方式去學習生成圖譜的schema,難度比較大,並且也不一定會爲業務人員買賬。所以,schema這個東西,道路且長。

關於作者

劉煥勇, Liu Huanyong,2017年碩士畢業,目前就職於中國科學院軟件研究所,兼任數據地平線科技算法總監。專注金融、情報兩大領域,從事事件抽取、事件演化、情感分析、事理(知識)圖譜、常識推理、語言資源構建與應用等研發工作。主持研發自然語言處理技術開放平臺數地工場、大規模實時事理知識學習系統學跡、全行業因果鏈查詢與溯源項目尋鏈系統,並在智能金融、智能情報落地中負責實施了多個項目。致力於面向中文處理的基礎知識庫建設與理論技術開源共享,目前累計對外開放自然語言處理實踐項目六十餘項,其中知識圖譜和事理圖譜項目十六項。在openkg開放知識圖譜聯盟中開放工業應用知識庫七類,主筆數地工場技術類系列文章二十餘篇。

如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯繫我:
1、我的自然語言處理開源項目:https://liuhuanyong.github.io
2、我的csdn技術博客:https://blog.csdn.net/lhy2014
3、我的聯繫方式: 劉煥勇,中國科學院軟件研究所,[email protected].
4、我的共享知識庫項目:劉煥勇,事理類知識庫數據集,http://www.openkg.cn/organization/datahorizon.
5、我的工業項目:劉煥勇,以事理爲核心的金融情報探索:https://datahorizon.cn.




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章