複雜網絡學習(一)概述

                                                      複雜網絡

一、概念

    複雜網絡即是指呈現高度複雜性的網絡,表示的是任何一個可以用節點和節點之間連線來代表的一個系統。從大型電力網絡到萬維網,從生態系統到動物羣體社會關係,在人類社會及自然界中存在着大量的複雜系統,而複雜系統正好可通過各種各樣的複雜網絡來描述

二、特性

複雜網絡的複雜性主要表現在

  • 結構複雜性
  • 節點複雜性
  • 各種複雜因素影響

三、發展歷程

由於複雜網絡存在不同層次,且與衆多學科廣泛交叉,現已形成一門研究複雜網絡的嶄新學科

主要分以下三個階段

  • 用一種固定的規則的結構表示:如二維平面上的歐幾里得網格
  • 節點之間的邊不再是確定的,而是用一個概率決定,也就是隨機網絡
  • 真實網絡既不是規則的也不是隨機的,而是一種與前兩種不同的統計特徵網絡,即複雜網絡。

四、主要理論

1、小世界網絡

在瞭解小世界網絡之前,先介紹幾個相關概念。

(1)特徵路徑長度

          特徵路徑長度就是網絡中所有節點對的路徑長度,,即聯通節點間最小邊數的平均值。

(2)聚合係數

        聚合係數反應的是一個節點與它相鄰節點的連接程度。假設某個節點有k條邊,則這k條邊連接的節點(k個)之間最多可能存在的邊的條數爲k(k−1)/2,用實際存在的邊數除以最多可能存在的邊數得到的分數值,定義爲這個節點的聚合係數。所有節點的聚合係數的均值定義爲網絡的聚合係數。聚合係數是網絡的局部特徵,反映了相鄰兩個人之間朋友圈子的重合度,即該節點的朋友之間也是朋友的程度。

(3)度分佈

節點的度指的是與該節點連接的邊數。
所有節點的度的平均值稱爲網絡的平均度。
網絡中度分佈函數的含義是:任意選擇的節點恰度爲K的概率;也就是網絡中度爲K的節點與總節點的個數比值。

 簡而言之 度分佈反應的是圖中各節點所連接邊的數目分佈情況

 

小世界特性(Small world theory)又被稱之爲是六度空間理論或者是六度分割理論(Six degrees of separation)。小世界特性指出:社交網絡中的任何一個成員和任何一個陌生人之間所間隔的人不會超過六個,如下圖所示:

之前介紹的概念主要用來標識網絡

這裏寫圖片描述

如圖可以看到三種網絡,分別是規則網絡、小世界網絡、隨機網絡。

其中規則網絡,任意兩個節點之間特徵路徑長度長,聚合係數高。

對於隨機網絡,兩個節點之間特徵路徑小,聚合係數低。

而小世界網絡,點之間特徵路徑長度小,接近隨機網絡,而聚合係數依舊相當高,接近規則網絡。

複雜網絡的小世界特性跟網絡中的信息傳播有着密切的聯繫。實際的社會、生態、等網絡都是小世界網絡,在這樣的系統裏,信息傳遞速度快,並且少量改變幾個連接,就可以劇烈地改變網絡的性能,如對已存在的網絡進行調整,如蜂窩電話網,改動很少幾條線路,就可以顯著提高性能。

2、無標度特性

現實世界中大部分網絡不是隨機網絡,少量節點往往擁有大量連接,而大部分節點卻擁有少量連接,節點的度數分佈符合冪律分佈。而這被稱爲網絡的無標度特性。將度分佈符合冪律分佈的網絡稱爲無標度網絡

節點符合冪律分佈是指,具有某個特定輸入/輸出度的節點數目與這個特定度之間的關係可以用一個冪函數近似表示。冪函數曲線是一條下降相對緩慢的曲線 ,這使得度很大的節點可以在網絡中存在。對於隨機網絡和規則網絡 ,度分佈區間非常狹窄 ,幾乎找不到偏離節點度均值較大的點 ,故其平均度可以被看作是其節點度的一個特徵標度.

下圖爲一個具有10萬個節點的BA無標度網絡的度數分佈示意圖:

無標度特性反映了複雜網絡具有嚴重的異質性,其各節點之間的連接狀況(度數)具有嚴重的不均勻分佈性:網絡中少數稱之爲Hub點的節點擁有極其多的連接,而大多數節點只有很少量的連接。少數Hub點對無標度網絡的運行起着主導的作用。從廣義上說,無標度網絡的無標度性是描述大量複雜系統整體上嚴重不均勻分佈的一種內在性質。

3、複雜網絡的魯棒性

對網絡節點的攻擊主要有隨機攻擊和針對重要節點的攻擊。
複雜網絡對於隨機攻擊具有較強的魯棒性,即使衆多節點被摧毀也不一定導致網絡的癱瘓崩潰;然而衆多重點節點被攻擊的話,整個網絡將會崩潰。  

其實複雜網絡的無標度特性與網絡的魯棒性分析具有密切的關係。無標度網絡中冪律分佈特性的存在極大地提高了高度數節點存在的可能性,因此,無標度網絡同時顯現出針對隨機故障的魯棒性和針對蓄意攻擊的脆弱性。這種魯棒且脆弱性對網絡容錯和抗攻擊能力有很大影響。研究表明,無標度網絡具有很強的容錯性,但是對基於節點度值的選擇性攻擊而言,其抗攻擊能力相當差,高度數節點的存在極大地削弱了網絡的魯棒性,一個惡意攻擊者只需選擇攻擊網絡很少的一部分高度數節點,就能使網絡迅速癱瘓。

4、舉例


小世界效應:小世界模型反映了朋友關係網絡的一種特性, 即大部分人的朋友都是他們日常生活中經常接觸的。 另外, 也有一些朋友離得很遠, 甚至異國他鄉。 正是由於這種不同朋友圈之間的長程連接, 導致了網絡具有較小的平均路徑長度。著名的“六度分離(Six degrees of separation) ”實驗, 在某種程度上反映了人際關係的“小世界”特徵。

無標度網絡:冪律分佈的形成, 主要是由於節點的偏附依好(preferential attachment),即新加入網絡的節點傾向於與那些具有較大度的節點相連, 這種現象也稱爲“馬太效應(M atthew effect)”, 主要反映了人們的從衆心理。

5、社區結構性

社區就是網絡中節點的集合,社區中節點之間具有緊密聯繫,而社區之間則是鬆散的連接。

人以類聚,物以羣分。複雜網絡中的節點往往也呈現出集羣特性。例如,社會網絡中總是存在熟人圈或朋友圈,其中每個成員都認識其他成員。集羣程度的意義是網絡集團化的程度;這是一種網絡的內聚傾向。連通集團概念反映的是一個大網絡中各集聚的小網絡分佈和相互聯繫的狀況。例如,它可以反映這個朋友圈與另一個朋友圈的相互關係。

 

五、社區監測

社區檢測是用來揭示網絡聚集行爲的技術,這裏的社區可理解爲一類具有相同特性節點的集合。

近年來,社區檢測得到了快速的發展,這主要是由於複雜網絡領域中的大牛Newman提出了一種模塊度(modularity)的概念,從而使得網絡社區劃分的優劣可以有一個明確的評價指標來衡量。一個網絡不同情況下的社區劃分對應不同的模塊度,模塊度越大,對應的社區劃分也就越合理;如果模塊度越小,則對應的網絡社區劃分也就越模糊。

下圖描述了網絡中的社區結構:

 

Newman提出的模塊度計算公式如下:

 

Q=1/(2m)∑ij(Aij−kikj/(2m))δ(Ci,Cj)

其中m爲網絡中總的邊數,A是網絡對應的鄰接矩陣,Aij=1代表節點i和節點j之間存在連邊,否則不存在連邊。ki爲節點ii的度數,Ci爲節點i屬於某個社區的標號,而δ(Ci,Cj)=1當且僅當Ci=Cj。

  上述的模塊度定義其實很好理解,我們可以根據一個網絡的空模型去進行理解。網絡的空模型可以理解爲只有節點的而沒有連邊,這時候一個節點可以和圖中的任意其他節點相連,並且節點i和j相連的概率可以通過計算得到。隨機選擇一個節點與節點i相連的概率爲kj/2m,隨機選擇一個節點與節點j相連的概率爲kj/2m,那麼節點i和節點j相連的概率爲pipj=kikj/(4m2),邊數的期望值Pij=2mpipj=kikj/(2m)。所以模塊度其實就是指一個網絡在某種社區劃分下與隨機網絡的差異,因爲隨機網絡並不具有社區結構,對應的差異越大說明該社區劃分越好。

  Newman提出的模塊度具有兩方面的意義:

  (1)模塊度的提出成爲了社區檢測評價一種常用指標,它是度量網絡社區劃分優劣的量化指標;

  (2)模塊度的提出極大地促進了各種優化算法應用於社區檢測領域的發展。在模塊度的基礎之上,許多優化算法以模塊度爲優化的目標方程進行優化,從而使得目標函數達到最大時得到不錯的社區劃分結果。

  當然,模塊度的概念不是絕對合理的,它也有弊端,比如分辨率限制問題等,後期國內學者在模塊度的基礎上提出了模塊度密度的概念,可以很好的解決模塊度的弊端,這裏就不詳細介紹了。

  常用的社區檢測方法主要有如下幾種:

  (1)基於圖分割的方法,如Kernighan-Lin算法,譜平分法等;

  (2)基於層次聚類的方法,如GN算法、Newman快速算法等;

  (3)基於模塊度優化的方法,如貪婪算法、模擬退火算法、Memetic算法、PSO算法、進化多目標優化算法等。

 

六、 結構平衡

  結構平衡(Structural Balance)主要是針對社交網絡的研究而被提出的,它最早源於社會心理學家Heider提出的一個結構平衡理論。

       1、網絡平衡的發展

  網絡平衡有時也稱社會平衡(Social Balance),就網絡平衡的發展來說,我們可以將其分爲三個發展階段。
   2、網絡平衡理論的提出
  “網絡平衡”一詞最早是由Heider基於對社會心理學的研究而提出的,Heider在1946年的文章Attitudes and cognitive organization[1]中針對網絡平衡的概念提出了最早的平衡理論:
  (1)朋友的朋友是朋友;
  (2)朋友的敵人是敵人;
  (3)敵人的朋友是敵人;
  (4)敵人的敵人是朋友。
  用常見的三元組合來表示上述的Heider理論如下:

  上述的平衡理論是有關網絡平衡提出的最早的理論,它後來也被稱爲是強平衡理論。

  1956年,Cartwright和Harary對Heider的平衡理論進行了推廣,並將其用在了圖理論中(STRUCTURAL BALANCE: A GENERALIZATION OF HEIDER'S THEORY[2])。Cartwright和Harary指出對於一個符號網絡而言,網絡平衡的充要條件是網絡中的所有三元組都是平衡的,該結論也可以陳述爲一個符號網絡平衡的充要條件是它所包含的所有迴路(cycles)都是平衡的(“-”號的個數爲整數個)。而且,在這篇文章中,他們還提出了著名的結構平衡理論:如果一個符號網絡是平衡的,那麼這個網絡就可以分爲兩部分子網絡,其中每個子網絡內部中節點的連接都是正連接,網絡之間的連接均爲負連接。

  在這各階段網絡平衡的發展的重心主要在於構建網絡平衡的心理學和社會學模型。

  3、網絡平衡的數學模型

  在有了Heider等人的奠基工作後,有關網絡平衡的發展主要是構建其數學模型,比如網絡的動態表現,一個網絡連接如何隨時間的變化而變化,網絡中節點之間的朋友或者敵人的關係如何演化等等。

  4、 網絡平衡的應用

  最新關於網絡平衡方面的研究大都是研究一些在線網絡,比如對某個網站用戶屬性的分析等等。而且,目前我們身處大數據時代,我們所要研究的網絡規模也變爲了大型甚至可以說是超大型網絡,這這個背景下,如何計算一個網絡是否平衡便成爲該領域的主要熱點問題。

  5、網絡平衡的基本理論

  (1) Heider理論(強平衡理論SBT)。

  (2) 結構平衡理論(Structural Balance Theroem):在完全符號網絡中,網絡平衡的充要條件是其所有的三元組(迴路)都平衡。

  結構平衡的推論:一個完全符號網絡平衡的充要條件是它可以被分爲兩部分X和Y,X和Y內部的節點連接均爲正連接,X和Y之間的連接均爲負連接。

  (3) 弱平衡理論(A weaker form of structural balance,WSBT):如果完全符號網絡中不存在這樣的三元組:兩個邊爲正,一邊爲負,則該網絡稱爲是弱平衡網絡。

  對於弱平衡理論而言,上圖的三元組中,三邊均爲負連接的三元組也屬於平衡三元組,也就是三元組的四種情況有三種屬於平衡狀態,一個屬於不平衡狀態(兩邊爲正,一邊爲負)。

  弱平衡網絡推論:如果一個網絡爲弱平衡理論,那麼它可以分爲多個部分,每部分內的連接爲正,部分之間的連接爲負。

  (4) 對任意網絡平衡的定義.

  1) 對於一個任意網絡而言,如果我們可以將它所缺失的邊填充使它成爲一個平衡的完全符號網絡,那麼原網絡就是平衡網絡;
  2) 對於一個任意網絡而言,如果我們可以將它分爲兩部分,使得每個部分內的連接均爲實線,部分之間的連接均爲虛線。
  以上的兩種定義是等價的。
  一個符號網絡平衡的充要條件是它不包括含有奇數個負連接的迴路。

  (5) 近似平衡網絡(略)。

  7、網絡平衡的計算(A spectral algorithm for computing social balance)
  命題1:節點i參與的三元組數目

  A爲鄰接矩陣,元素取值可能爲:1,-1,0;
  G爲鄰接矩陣,元素取值可能爲:0,1.
  命題2:對於節點i而言,bi爲其參與的平衡三元組數目,ui爲其參與的不平衡三元組數目,則

  理論1:對於完全符號圖而言,

  平衡三元組所佔的比例爲

  理論2:對於任意符號網絡,平衡三元組所佔的比例爲

  
  注:以上兩個計算網絡平衡的公式中,特徵值可以隨大到小選擇前幾個比較大的,就像PCA那樣,這樣可以使得計算的複雜度大大減小。

回到頂部

八、影響最大化

  隨着各種在線社交平臺的發展,社交平臺(比如QQ、微博、朋友圈等)已經不僅僅是一種用戶進行溝通的社交平臺,它們更是社會信息產生和傳播的一種主要的媒介。影響最大化(Influence Maximization)同結構平衡一樣,也是針對社會網絡的研究而被提出的,它來源於經濟學的市場營銷。2001年,影響最大化被Domins首次以一種算法問題的形式被提出。而影響最大化受到廣泛的關注是在2003年Kempe等人在當年的KDD會議上發表的一篇有關影響最大化的論文之後,隨後各種影響最大化算法被迅速提出,最近的十幾年裏,影響最大化的相關文章達到了上千篇,可見這個問題還是很值得關注的。

  影響最大化問題可以這樣來描述:一個商家或者企業利用一種社交平臺(比如爲新浪微博)爲自己的新產品或者新服務進行推廣,如何在資金有限的情況下僱傭微博達人來做推廣可以使得推廣範圍達到最大?

  我們再給出影響最大化的一般定義:

  給定一個網絡GG和一個整數KK(一般小於50),如何在GG中找出KK個節點,使得這KK的節點組成的節點集合SS的影響傳播範圍σ(S)σ(S)達到最大。

  根據上述影響最大化的定義我們很容易可以知道,影響最大化本身屬於一種組合優化問題。常用的影響最大化傳播模型有獨立級聯傳播模型(ICM)和線性閾值傳播模型(LTM)。

  影響最大化方面的主要算法可以分爲如下幾類:

  (1)基於網絡中心性的啓發式方法:比如最大度方法、最短平均距離方法、PageRank方法等;

  (2)基於子模塊性的貪婪方法:比如最經典的Greedy算法,CELF算法以及後來的NewGreedy和CELF++等;

  (3)基於社區結構的方法:比如CGA算法、CIM算法等;

  (4)基於目標函數優化的方法:比如模擬退火算法等。

 

九、網絡傳播

   網絡傳播領域涉及很多方面,比如網絡節點重要性排序、網絡魯棒性分析、網絡信息爆發閾值優化等。這些領域都很有意思,感興趣的博友可以好好深入研究一下。

 

十、補充

網絡可視化工具

  首先在這裏推薦兩款我常用的網絡可視化工具:Pajek (點擊進入官方網站)、Gephi(點擊進入官方網站)。

 

  這是Gephi的一個可視化效果:

網絡數據集

  常用的一些公開數據集整理:

  Pajek(可視化工具)數據集:http://vladowiki.fmf.uni-lj.si/doku.php?id=pajek:data:index;

  Newman(複雜網絡科學領域大牛)個人數據集:http://www-personal.umich.edu/~mejn/netdata/

  Stanford大學大規模網絡數據集:http://snap.stanford.edu/data/

  復旦大學網絡數據集整理:http://gdm.fudan.edu.cn/GDMWiki/Wiki.jsp?page=Network%20DataSet

  KONECT數據集整理:http://konect.uni-koblenz.de/

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章