AutoGL:淺談未來非常有前景的自動圖機器學習相關概念

最近一年圖神經網絡網絡的概念很火,也有很多相關的工作誕生。今天重點介紹下AutoGL,也就是Auto Graph Learn方面的基礎概念。首先還是說下圖計算和之前傳統的非圖類結構化數據計算的區別。

Graph建模的特點

以推薦系統爲例,傳統的結構化數據,其實比較好的描述的場景是user對item的單點關係,比如user A買了一個item B,那麼可以把A和B的特徵通過表的形式展示出來:

A_f1 A_f2 B_f1 B_f2 label
-- -- -- -- 1

但是實際的上user購買序列往往是一個圖關係,user A可能先後買了B、C、D,之後又買了B。通過傳統的結構化數據其實很難描繪好這種序列性關係,這時候圖的價值就體現了。

屏幕快照 2020-12-27 上午11.01.09.png

既然有圖計算,就一定有圖機器學習,那麼就會有圖自動機器學習。接下來就介紹下圖自動機器學習的一些概念。

圖自動機器學習概念

清華大學有開源相關的工作:https://github.com/THUMNLab/AutoGL

首先可以看下圖機器學習包含哪些環節:

大體上就是先構建特徵,然後建模,接着調參,最後做模型融合,看上去跟傳統的機器學習建模的流程沒什麼兩樣。

1.數據&feature

圖的數據比較特別,有邊和點的概念。一般點表示的是一個實物,比如說人或者物,邊表示的是人和物的關係。比如我一天喫3個饅頭,我和饅頭是兩個點,喫這個行爲是關係,這個關係的屬性是3。

圖數據該如何描述呢?業內已經有兩個很成熟的庫了,

DGL:https://github.com/dmlc/dgl

PyG:https://github.com/rusty1s/pytorch_geometric

通過他們可以快速的導入數據,另外圖數據領域有一個類似於CV領域的Benchmark數據集,叫做OGB:http://ogb.stanford.edu

2.Model環節

建模環節包含兩個方向的模型訓練,是監督學習。分別是Node Classification和Graph Classification。點分類比較好理解,比如在基因領域,把所有對基因顏色有影響的因素做成Node,因素間的邊是因素相關性,對結果顏色有黃色影響的Node可以爲一類,綠色的爲另一類。

Graph Classification往往應用到風控場景。人以類聚,物以羣分。好人一般都跟好人有社交關聯屬性,壞人往往跟壞人關聯性高。如果把兩個社交羣體,一個判斷爲壞人羣體,一個是好人羣體,就可以針對壞人做一些風控,一網打盡。這個是Graph Classification的典型應用。

3.HPO環節

HPO就是自動調參,其實在圖裏面沒什麼特別的,就是貝葉斯、進化式調參、網格搜索這一些,google有非常多論文發表,不多講了。

4.Ensemble

Ensemble指的是當我們有多個模型的時候,怎麼樣綜合這些模型的結果並輸出一個最終結果。常見的Ensemble有Voting、Bagging、Average、Stacking等。

  • Voting指的是投票機制,假設一共三個模型。兩個說結果是1,一個說結果是0,少數服從多數,結果是1。

  • Stacking是一種將弱學習器集成進行輸出的策略,其中,在stacking中,所有的弱學習器被稱作0級(0 level)學習器,他們的輸出結果被一個1級(1 level)學習器接受,然後再輸出最後的結果。

總結一下

圖數據因爲在推薦、風控等領域的天然數據構造優勢,肯定會越來越多的有各種好用的工具落地,特別是PyTorch還支持了圖數據結構的輸入。我自己也認識做這方面創業相關工作的人。沒事多瞭解下是有幫助的,就這樣~

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章