《Graph learning》| 圖傳播算法(下)

上週發佈的《圖傳播算法(上)》中講了關於圖傳播算法的基本範式和PageRank算法,本文將延續上週的文章,繼續講解剩下的三個算法。


2· HITS

HITS(Hyperlink - Induced Topic Search)另一個典型的圖傳播算法,其所解決的問題與PageRank算法一樣,在一個給定的由網頁構成的有向圖中,返回高質量的排名結果。與PageRank直接建模重要性排名指標不同的是,HITS更細緻的建模了兩個衡量指標,包括Authority值和hub值。

  • Authority:可理解爲權威頁面,一般包含高質量內容。

  • hub:可理解爲導航頁面,指向很多Authority頁面。


其經驗假設爲

  1. 被越多的hub頁面所指向的頁面,內容質量越高。

  2. 一個hub頁面會儘可能地指向更高質量的內容頁面。


很顯然,其更新函數可量化爲:

雖然HITS算法爲每個頁面都計算了兩個指標,但是最後返回給用戶的只是那些Authority值很高的頁面。這樣看來,HITS的思路只是在迭代過程中,利用hub值這一合理的中間指標來指導Authority值的精確計算,這種思考方式可以很快在後面算法中再次看到。


另外,在迭代過程中,爲了保證算法的收斂性,HITS會對Authority值與hub值分別作爲均方根歸一化。

Weisfeiler-Lehman

Weisfeiler-Lehman算法通常被用在解決圖的相似性問題上,雖然算法要解決的問題聚焦在Graph層面上,但是其立足點還是在節點上,如果我們能夠找到一種衡量節點獨立性(unique)的方法,那麼我們就可以將圖視作一個包含這些獨立性節點的集合,兩張圖的相似性可以轉化爲兩個集合的Jaccard相似度。


何謂節點獨立性?其實在前面《淺析圖卷積神經網絡》中,我們談到圖中的一個節點同時具有attribute和structure的信息,需要同時從這兩方面來對節點作Identifaction。很自然地,structure信息還是通過節點的鄰居來刻畫,Identifaction可以通過hashing來高效判斷。如果設Φ(vi)表示節點vi的特徵信息(attribute),那麼更新函數可量化爲:

其中,h是一個哈希函數,理想的性質是滿足僅有相同的輸入纔有相同的輸出,這裏相當於對每個節點都計算了一個指紋(fingerprint),算法裏需要不斷地迭代更新上式,直到獨立性節點個數不再上升,但實際爲了計算效率與效果的綜合考慮迭代2~3輪就可以了。


 

下面舉例說明Wisfeiler-Lehman算法

給定兩圖G和G',其中每個節點都已經打上了標籤(實際應用中,有些時候我們並拿不到節點的標籤,這時可以對節點都標上“1”這個標籤)

要比較G和G'的相似性,我們來看看weisfeiler-lehman算法是怎麼做的:


1、aggregate鄰居節點的標籤得到一個標籤的字符串,對字符串進行升序排列。

2、對字符串進行哈希處理,這裏生成了一個一一映射的字典,這一步也可以使用其它的字符串哈希函數,只要保證碰撞率儘量小就可以。

  3. 將哈希過的值重新賦值給相應的節點

這樣第一輪迭代之後,G={6、6、8、10、11、13},G'={6,7,9,10,12,13}於是利用Jaccard公式就可以計算出G和G`的相似度了,如果需要更嚴格的對比,可以持續迭代上述過程。


4· RVE2

由於筆者所屬行業的關係,所以這裏選了一個解決惡意評分場景下問題的算法,文章發表在WSDM2018會議上,名爲《RVE2:Fraudulent User Prediction in Rating Platforms》。RVE2也是一個非常典型的圖傳播算法,其更新公式雖然看上去比較複雜,但是整個思路還是十分符合一般範式的。


首先,我們來把背景問題定義下,給定一個有向的,帶有權重的二部圖Bipartite Graph G=(U,R,P)。其中,U代表用戶集合,P代表商品集合,R表示所有邊的集合,邊(μ,p)表示用戶μ對商品p的一次評分操作,設評分爲score(μ,p),score(μ,p)∈[-1,1]。

我們的問題是找到是哪些惡意的用戶在進行虛假評分,這裏算法分別對用戶、商品、評分設計了衡量指標:

  • User-fairness(用戶-公平度),公正的用戶會依據商品的質量作出如實的評價,越多的公正用戶對商品進行評價,我們就能夠確定商品的真實質量指標,F(u) ∈ [0, 1], 1 表示100%公正的用戶。


  • Products-goodness(商品-質量),商品的質量是對商品價值的真實衡量。G(p)∈[-1,+1],“+1”表明商品具有很高的質量,“-1”表明商品比較劣質。


  • Rating-reliability(評分-可靠度),可靠度指標R(μ,p)∈[0,1],可靠度爲0說明用戶對商品的評分不可靠,反之則可靠。


刻畫了上述三個指標之後,可以總結出下面5條經驗假設

  1. 質量好的商品得到更高的評分

  2. 質量好的商品得到更多可靠的正面評分

  3. 可靠的評分在數值上更接近商品的質量

   4. 可靠的評分來自公正用戶

   5. 給出越可靠評分的用戶公正度越高

可以發現算法以可靠度爲邏輯樞紐去衡量另外兩個指標,這與HITS算法裏面以hub值去指導Authority值的計算是相通的,只是這裏的衡量指標更多,邏輯關係更復雜。


基於上面的5條經驗假設,作者設計了下面三個更新公式:


可以看到,上述更新公式會趨向於忽略低可靠度的評分,而加大高可靠度評分的權重。也可證明,更新公式全部符合上述五條經驗假設。


作者在論文後面詳細闡述了初始化,融合先驗異常信息以及怎麼在RVE2上面做監督學習的思路,實驗部分的效果也十分理想,有興趣可以去看看原輪文。

總結

這一章我們通過4個算法介紹了圖傳播算法的一般範式,其核心就在於:


老實說,這樣一種解決問題的方法存在很大的門檻,需要系統邏輯式地去思考並量化思維過程,這種能力唯有來源於大量的學習和思考鍛鍊。當然,如果比較走運,研究的數據有大量的標記集,我們也可以讓圖卷積等基於 learning 的方法去進行監督學習,讓模型自動化地學習出數據內在的規律模式。


參考鏈接:

http://www.jmlr.org/papers/volume12/shervashidze11a/shervashidze11a.pdf

https://cs.stanford.edu/~srijan/rev2/


想要學習和探討圖學習相關內容的小夥伴可以關注我們的微信公衆號geetest_jy,還可以添加我們的技術助理geetest1024,進入技術交流羣和作者以及衆多技術小夥伴探討問題!


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章