DeepWalk: Online Learning of Social Representations 論文筆記

原創

2018-09-05 01:03

# 摘要

本文是自己在閱讀論文中進行的記錄，單純的看，感覺沒有搞很明白，所以寫出來。

本篇論文主要介紹瞭如何把自然語言處理模型word2vec的方法應用到網絡的節點表示中，通過word2vec的方法把網絡學習爲向量的潛層表示，能把網絡中的聯繫編碼到連續的向量空間中，這樣網絡的關係就能夠很方便的通過各種統計模型來對這些網絡中的聯繫進行各種應用。

# 前言

普通的鄰接矩陣在存儲的關係很多時，緯度將變得很高，而進行矩陣分解是一個相當費時複雜的過程，因此通過矩陣分解的方法進行網絡的表示學習，目前並沒有應用到大尺度數據集的方案。

本文通過將已經成熟的自然語言處理模型word2vec應用到網絡的表示上，做到了無需進行矩陣分解即可表示出網絡中的節點的關係。

DeepWalk把對圖中節點進行的一串隨機遊走類比於word2vec中對單詞的上下文，作爲word2vec算法的輸入，進而把節點表示成向量。輸出的結果能夠被多種分類算法作爲輸入應用。

## 主要成果

* 通過對網絡進行短隨機遊走生成了可以被統計模型應用的網絡表示

* 所學得的表示在多標籤分類任務中，性能優於已有算法。某些情況下，甚至能在訓練樣本較少時獲得更好結果。

* 能對web-scale下的網絡進行表示

## 目標問題

輸入：一個圖的點集和邊集

輸出：對於GL=(V,E,X,Y)（其中X是特徵，Y標籤集合），一般的機器學習問題，需要學習一個從X映射到Y的hypothesis。而本文的任務就是學習得到X的低維表示。摘自DeepWalk：Online Learning of Social Representations》筆記

## 理論支持

自然語言已經被證明是複合冪次定律，只需要證明圖的數據也符合冪次定律就可以對圖的表示應用對自然語言表示的方法。下圖比較了對圖進行短隨機遊走中向量出現的頻率與單詞在文本信息中出現的頻率。發現對圖的短隨機行走也是大致滿足冪次定律的。

# 算法介紹

## 算法一：短隨機遊走生成

將輸入的圖的點集進行隨機打亂（Shuffle（）函數），然後輸入到SkipGram算法中進行表示學習。

## 算法二：word2vec中SkipGram算法

算法整體流程（圖源）

# 實驗

## 多標籤分類

數據集：

BlogCatalog [39] is a network of social relationships provided by blogger authors. The labels represent the topic categories provided by the authors.
Flickr [39] is a network of the contacts between users of the photo sharing website. The labels represent the
interest groups of the users such as ‘black and white photos’.
YouTube [40] is a social network between users of the popular video sharing website. The labels here
represent groups of viewers that enjoy common video genres

baseline：

* SpectralClustering

* Modularity

* EdgeCluster

* wvRN

* Majority

## 參數敏感性

探究參數的變化對分類性能的影響

* 隱含表示的空間的緯度（d）和訓練速率的變化。（a1和a3）

* 每個頂點的緯度和遊走數量（Y）的變化。（a2和a4）