Graph embedding之Deepwalk算法原理，實現和應用

原創

2020-06-08 17:19

圖神經網絡

主要包括Graph Embedding(基於隨機遊走)和Graph CNN(基於鄰居匯聚)兩部分。這裏先看下Graph Embedding的相關內容。Graph Embedding技術將圖中的節點以低維稠密向量的形式進行表達，要求在原始圖中相似(不同的方法對相似的定義不同)的節點其在低維表達空間也接近。得到的表達向量可以用來進行下游任務，如節點分類，鏈接預測，可視化或重構原始圖等。

DeepWalk 算法原理

雖然DeepWalk是KDD 2014的工作，但卻是我們瞭解Graph Embedding無法繞過的一個方法。

我們都知道在NLP任務中，word2vec是一種常用的word embedding方法，word2vec通過語料庫中的句子序列來描述詞與詞的共現關係，進而學習到詞語的向量表示。

DeepWalk的思想類似word2vec，使用圖中節點與節點的共現關係來學習節點的向量表示。那麼關鍵的問題就是如何來描述節點與節點的共現關係，DeepWalk給出的方法是使用隨機遊走(RandomWalk)的方式在圖中進行節點採樣。

RandomWalk是一種可重複訪問已訪問節點的深度優先遍歷算法。給定當前訪問起始節點，從其鄰居中隨機採樣節點作爲下一個訪問節點，重複此過程，直到訪問序列長度滿足預設條件。

獲取足夠數量的節點訪問序列後，使用skip-gram model 進行向量學習。

DeepWalk算法

DeepWalk算法主要包括兩個步驟，第一步爲隨機遊走採樣節點序列，第二步爲使用skip-gram modelword2vec學習表達向量。

①構建同構網絡，從網絡中的每個節點開始分別進行Random Walk 採樣，得到局部相關聯的訓練數據； ②對採樣數據進行SkipGram訓練，將離散的網絡節點表示成向量化，最大化節點共現，使用Hierarchical Softmax來做超大規模分類的分類器

def deepwalk_walk(self, walk_length, start_node):

    walk = [start_node]

    while len(walk) < walk_length:
        cur = walk[-1]
        cur_nbrs = list(self.G.neighbors(cur))
        if len(cur_nbrs) > 0:
            walk.append(random.choice(cur_nbrs))
        else:
            break
    return walk

def _simulate_walks(self, nodes, num_walks, walk_length,):
    walks = []
    for _ in range(num_walks):
        random.shuffle(nodes)
        for v in nodes:           
            walks.append(self.deepwalk_walk(alk_length=walk_length, start_node=v))
    return walks

results = Parallel(n_jobs=workers, verbose=verbose, )(
    delayed(self._simulate_walks)(nodes, num, walk_length) for num in
    partition_num(num_walks, workers))

walks = list(itertools.chain(*results))

Word2vec
可以直接用gensim裏的Word2Vec了。

from gensim.models import Word2Vec
w2v_model = Word2Vec(walks,sg=1,hs=1)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Graph embedding之Deepwalk算法原理，實現和應用

目錄

圖神經網絡

DeepWalk 算法原理

DeepWalk算法

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

面試-操作系統複習

神經網絡優化的方法-梯度、超參數

推薦算法中點擊率CTR修正方法—威爾遜區間

Graph embedding之Deepwalk算法原理，實現和應用

Leetcode 101. 對稱二叉樹遞歸和迭代。

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結