AutoGL：淺談未來非常有前景的自動圖機器學習相關概念

原創

2021-01-30 09:28

最近一年圖神經網絡網絡的概念很火，也有很多相關的工作誕生。今天重點介紹下AutoGL，也就是Auto Graph Learn方面的基礎概念。首先還是說下圖計算和之前傳統的非圖類結構化數據計算的區別。

Graph建模的特點

以推薦系統爲例，傳統的結構化數據，其實比較好的描述的場景是user對item的單點關係，比如user A買了一個item B，那麼可以把A和B的特徵通過表的形式展示出來：

A_f1	A_f2	B_f1	B_f2	label
--	--	--	--	1

但是實際的上user購買序列往往是一個圖關係，user A可能先後買了B、C、D，之後又買了B。通過傳統的結構化數據其實很難描繪好這種序列性關係，這時候圖的價值就體現了。

既然有圖計算，就一定有圖機器學習，那麼就會有圖自動機器學習。接下來就介紹下圖自動機器學習的一些概念。

圖自動機器學習概念

清華大學有開源相關的工作：https://github.com/THUMNLab/AutoGL

首先可以看下圖機器學習包含哪些環節：

大體上就是先構建特徵，然後建模，接着調參，最後做模型融合，看上去跟傳統的機器學習建模的流程沒什麼兩樣。

1.數據&feature

圖的數據比較特別，有邊和點的概念。一般點表示的是一個實物，比如說人或者物，邊表示的是人和物的關係。比如我一天喫3個饅頭，我和饅頭是兩個點，喫這個行爲是關係，這個關係的屬性是3。

圖數據該如何描述呢？業內已經有兩個很成熟的庫了，

DGL：https://github.com/dmlc/dgl

PyG：https://github.com/rusty1s/pytorch_geometric

通過他們可以快速的導入數據，另外圖數據領域有一個類似於CV領域的Benchmark數據集，叫做OGB：http://ogb.stanford.edu

2.Model環節

建模環節包含兩個方向的模型訓練，是監督學習。分別是Node Classification和Graph Classification。點分類比較好理解，比如在基因領域，把所有對基因顏色有影響的因素做成Node，因素間的邊是因素相關性，對結果顏色有黃色影響的Node可以爲一類，綠色的爲另一類。

Graph Classification往往應用到風控場景。人以類聚，物以羣分。好人一般都跟好人有社交關聯屬性，壞人往往跟壞人關聯性高。如果把兩個社交羣體，一個判斷爲壞人羣體，一個是好人羣體，就可以針對壞人做一些風控，一網打盡。這個是Graph Classification的典型應用。

3.HPO環節

HPO就是自動調參，其實在圖裏面沒什麼特別的，就是貝葉斯、進化式調參、網格搜索這一些，google有非常多論文發表，不多講了。

4.Ensemble

Ensemble指的是當我們有多個模型的時候，怎麼樣綜合這些模型的結果並輸出一個最終結果。常見的Ensemble有Voting、Bagging、Average、Stacking等。

Voting指的是投票機制，假設一共三個模型。兩個說結果是1，一個說結果是0，少數服從多數，結果是1。

Stacking是一種將弱學習器集成進行輸出的策略，其中，在stacking中，所有的弱學習器被稱作0級（0 level）學習器，他們的輸出結果被一個1級（1 level）學習器接受，然後再輸出最後的結果。

總結一下

圖數據因爲在推薦、風控等領域的天然數據構造優勢，肯定會越來越多的有各種好用的工具落地，特別是PyTorch還支持了圖數據結構的輸入。我自己也認識做這方面創業相關工作的人。沒事多瞭解下是有幫助的，就這樣~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AutoGL：淺談未來非常有前景的自動圖機器學習相關概念

Graph建模的特點

圖自動機器學習概念

1.數據&feature

2.Model環節

3.HPO環節

4.Ensemble

總結一下

python gdal 安裝使用（Windows， python 3.6.8）

IBM Bigfix training培訓涵蓋基礎知識和中級知識

學會這個，讓你在Linux網絡配置中超過70%的人！

實戰 | CNN+BLSTM+CTC的驗證碼識別從訓練到部署

華爲交換機做dhcp

STM32F103C8T6、FreeModbus從站的設計與測試（4）——定時器、中斷初始化

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結