機器解讀知識,從海量的知識中抽取出「元知識」-02

這是mixlab無界社區的成員Jeff的《如何讓機器量化知識》系列文章的第02篇。爲我們介紹知識的數據化、量化,以及如何把開放的問題轉化爲封閉式問題讓機器解讀。

本期主題是「 元知識 」,從海量知識中抽取出5000個元知識,然後以此爲元素,組合出各種知識。此過程非常像mixlab之前探索過的顏色譜圖的構建:聚類算法+word2vec=傳統色彩圖譜。

本文作者

ML03 -Jeff - 產品/設計/運營/人工智能/物理

GET人工智能創始人

def extract ( knowledge ) :

「 對世界的理解從定義元知識開始 」

化學中我們常常最小的單位理解爲元素,元素的排列組合建立起了我們看到的化合物到現在世界見到的物質。我們從簡單量化創造象形文字,大約在公元前32世紀,我們的象形文字在500個左右,到後來公元前5-7世紀有5000個左右。基本相當於我們現在常用的中文漢字,但是隨着發展,按理說文字的創造會增加,可是實際上變化非常甚微。因爲我們在量化這個世界時候遇到了,我們人類本身不可逾越的記憶力困擾,我們發現一旦超過5000個新字符基本會遺忘很多。

思考:如何定義5000個「元知識」?

「 元知識 」應該是被其他知識大量引用的知識,與其他知識重合度越高,相似的知識越多的,是不是就是「 元知識 」?

這個時候元知識開始起到作用了,這個如同我們標記5000個字符爲元素,那麼元素與元素可以有效排列組合,這種組合就誕生了我們一個簡單的知識。元知識就是最簡單的組合,這些組合看似簡單卻擁有神奇的魔力,如同指數的增加,用單一的模式量化我們人類對世界的理解。

我們認爲,「 元知識 」的排列組合,是一個在多維空間裏的向量運算過程。

元知識重要在於我們能夠用一個詞來表達複雜的信息。在中國歷史的發展中古文其實就是很可怕,我們在字符元素中的理解那麼多解釋,晦澀難懂。有了對元知識的創造本身就是在減輕人類對信息的記錄和傳播。一下子我們在過去2000年通過元知識的排列組合建立了文明和制度,如果沒有元知識的組合我們的法律條文基本難以傳達。正是這樣的組合方式發揮讓我們把信息能夠有效存儲,這個在人類發展中有了決定性作用。也許我們感嘆過去文明的發展是如此神奇,但是在今天,我們信息已經不在只是你能夠一輩子接觸的幾百人那麼簡單,互聯網信息發展簡化了空間的距離關係,強化了信息的指數交流。這個時候元知識似乎排列的速度更加快,快到我們人類必須進行第二次蛻變。

return

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章