早期社團發現算法調研

複雜網絡社團發現算法綜述

1. 相關概念

複雜網絡:具有自組織、自相似、吸引子、小世界、無標度中部分或全部性質的網絡稱爲複雜網絡。

社團結構:網絡中的頂點可以分成,組內頂點間的連接比較稠密,組間頂點的連接比較稀疏。

2. 算法分類

3.1非重疊社團發現算法

3.1.1 模塊度優化算法

模塊度:

目前常用的一種衡量網絡社區結構強度的方法,定義爲


用它來定量衡量網絡社區劃分質量,其值接近1,表示劃分質量越好。

 

Newman快速算法:

將每個節點看作是一個社團,每次迭代選擇產生最大Q值的兩個社團合併,直到整個網絡合併成一個社團。在整個過程中選擇模塊度最大的劃分得到最終的社團結構。

CNM算法:

在Newman快速算法的基礎上採用堆數據結構計算和更新網絡的模塊度,提升了計算速度。

MSG-MV算法:

在Newman快速算法的基礎上,引入多步擴展,每一次迭代過程中可以合併多對社團以避免過早地收縮到少數較大的社團。

GN算法:

依次刪除網絡中邊介數(網絡中經過每條邊的最短路徑數)最大的邊,直至每個節點單獨退化爲社團,在整個刪除過程中選取對應模塊度Q值最大時的結果。

缺點:計算複雜度高,O(n3)。

EO算法:

將每個節點對模塊度Q值貢獻大小定義爲局部變量,然後在隨機初始劃分的基礎上,通過貪婪策略調整局部變量(具有最小貢獻度的變量)來提高全局目標函數Q值。

評價:

模塊度優化算法無法發現小於一定粒度的社團,尤其在大規模網絡中,社團大小不一,該問題尤爲突出;模塊度計算的複雜性決定了此類方法的計算複雜性高,不適合大規模網絡中的社團劃分。

3.1.2 基於譜分析的社團發現算法

思想:

利用圖的鄰接矩陣和對角矩陣將圖用特定矩陣表示出來,如圖的拉普拉斯矩陣L=D-W,D爲以每個節點的度爲對角元的對角矩陣,W爲圖的鄰接矩陣。同一社團的節點對應的特徵分量近似相等,這是譜分析方法實現社團發現的理論基礎。將節點對應的矩陣特徵分量看作空間座標,將網絡中的節點映射到多維特徵向量空間中,用傳統的聚類方法將節點聚類成社團。

評價:

因爲需要計算矩陣特徵值,計算開銷大;但是因爲將問題轉化爲歐拉空間的向量聚類問題,可以採用此領域的衆多方法進行聚類,靈活性大。

3.1.3 基於標號傳播的社團發現算法

思想:

首先爲每個節點指派唯一的標號,在每一步迭代中,每個節點將自己的標號更新爲其鄰居節點中出現次數最多的標號,若存在多個相同的最多標號,隨機選擇一個作爲更新值,若干次迭代後密集相連的節點會收斂於同一標號,具有相同標號的節點歸爲一個社團。

評價:

LPA算法的優點在於不需要任何參數輸入,而且算法具有線性時間複雜度,收斂速度非常快,適用於規模較大的複雜網絡。

3.2重疊社團發現算法

3.2.1 基於團滲透改進的重疊社團發現

思想:

社團是由一系列相互可達的k-團(大小爲k的完全子圖)組成,通過合併相鄰的k-團實現社團發現。

快速團滲透算法:

1.      將網絡的邊按順序(權值大小)插入到網絡中,同時檢測出現的k-團

2.      將檢測到的k-團根據是否與已有k-社團近鄰,併入k-社團形成新的k-社團。

評價:

基於團滲透思想的算法需要以團爲基本單位來發現重疊,這對於真實網絡,特別是稀疏網絡而言條件過於嚴格,只能發現少量的重疊社團。

3.2.2 基於種子擴散思想的重疊社團發現

思想:

以具有某種特徵的子網絡爲種子,通過合併、擴展等操作向鄰接節點擴展,直至獲得評價函數最大的社團。

LMF算法:

定義兩個適應度函數:社團的適應度和節點對社團的適應度。以單個節點v爲初始社團g,考慮與其相鄰的節點a,將對其適應度最大的鄰節點加入到當前社團形成g’,重新計算g’中各節點的適應度,將適應度爲負的節點剔除,重複上述過程直到擴展後的社團其鄰節點對它的適應度均爲負。最終由擴展得到的若干個局部社團生成整個網絡的覆蓋,得到網絡的社團劃分結果。

評價:

算法的社團劃分結果取決於種子選擇策略和擴展評價函數,常用的種子包括單一節點、子圖。擴展評價函數的設定也比較靈活,有較大的提升空間。

3.2.3 基於邊聚類的重疊社團發現

思想:

將原網絡轉換爲加權線圖,原網絡中的邊映射爲線圖中的節點,線圖中的節點存在邊當且僅當原網絡中所對應的邊存在共享節點。通過對網絡的轉換,可以直接應用非重疊社團發現算法檢測原網絡中的重疊社團。

評價:

巧妙地將重疊社團檢測問題轉化爲非重疊社團檢測問題,可以應用非重疊社團檢測的若干方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章