複雜網絡中重要節點挖掘方法綜述

複雜網絡的一些相關概念可以參考我上一篇博客:複雜網絡入門

  • 重要節點挖掘的任務
    • 1、找到一種適合於所有情形下量化節點重要性的方法是不可能的,甚至在給定明確的量化函數下,不同的參數或者不同的網絡結構都可能導致函數執行效果完全不同。
    • 2、需要在節點局部信息和無參數指標與結合全局拓撲結構信息和衆多可調參數中權衡,前者簡單但是精度不夠,後者相反。
    • 3、當前衆多算法都是挖掘單個重要的節點而不是一個節點集,然後重要的節點集並不是簡單地將衆多最重要的單個節點放到一起組成的,因爲他們可能有衆多重複的部分。所以挖掘節點集是一個新的挑戰。
    • 4、最後,我們需要在許多新型的網絡下去挖掘重要節點,如:空間網絡,時序網絡等。

複雜網絡中的節點各種的重要性是不一樣的,如在微博這一社交平臺中,一些微博紅人和一些明星大咖的影響力和一個微博新手的重要性是不一樣的;在大學校園裏,校學生會主席和一個學計算機的死宅在大學這個社交網絡中的重要性也是不一樣的;在全國鐵路網中,北京市,武漢市與拉薩市,烏魯木齊市的重要性也是不一樣的。
這篇文章主要介紹複雜網絡中重要節點的發掘的一些基本方法:

  • 社會網絡分析方法
    核心思想:是“重要性等價於顯著性”,對網絡中重要節點的發掘不以破壞網絡的整體性爲基礎。
    這裏的重要性主要是通過對網絡中節點的度、節點和邊上的權值等基本屬性計算出一些發現節點重要性的基本指標,如接近度、介數、特徵向量等。已提出的發現重要節點的指標主要分爲核心性(Centrality)和聲望(Prestig e)兩大類。下面介紹其中幾種常見的方法。

    • 節點的度
      節點的度的概念和計算方法在上一篇博客複雜網絡入門中已經介紹了,這裏就不再累述。這裏主要說一下節點的度是怎樣判斷一個節點的重要性的:
      將網絡中的節點按其度的大小排序,度大的節點往往更加重要。其思想是社會網絡中人們的從衆心理,比如大家都去關注一個明星的微博,將這個明星看成一個節點,他的度就相當的大,因此可以說這個明星相對比較重要。但是度大的節點不一定十分重要,同樣拿明星微博說事,比如某個明星微博的粉絲很多,看似他很火,但是其實他的粉絲數大多數是一些水軍創建的無用的“殭屍賬號”,這樣也不能體現出他的重要性。
      總而言之:一個節點的度值雖然很高, 但是連接它的其他節點並不重要, 則這個節點並不一定非常重要;反之, 若一個節點的度值並不是非常高, 但是連接它的節點多數都非常重要, 則這個節點在網絡中可能是個非常重要的節點。

    • 接近度(Closeness)
      反應節點在網絡中居於中心的程度。
      舉例說明什麼是接近度:
      這裏寫圖片描述
      圖中對於P2來說,可以直接到達P1、P3、P4,通過P4也能達到P5;但是對於P1來說除了P2可以直接到達以外,其他節點都需要通過P2纔可以達到。我們就可以認爲P2更趨近於網絡的中心。
      在網絡中最中心的節點上產生的消息,將以最短的時間傳播遍整個網絡。 網絡中較短的距離意味着更少的消息傳遞時間和花費。
      接近度表示某節點到到其他所有節點距離之和的倒數。
      節點的接近度越大, 表明節點越居於網絡的中心, 它在網絡中就越重要。 但是, 接近度對網絡的拓撲結構依賴性很大,對於集中式的星形網絡它可以準確地發現中心節點, 但是對於民主式的正則圖、ER 隨機圖網絡則並不適合。

    • 介數
      A節點的介數含義爲網絡中所有的最短路徑之中經過節點A的數量。
      對網絡中每個節點的介數進行計算、排序, 也可以表達節點的某種重要性。 節點的介數值越高, 這個節點就越有影響力, 這個節點也就越重要。 使用介數來判斷人際關係網絡中節點的重要程度, 則其表示某個人在關係網絡中最短路徑上出現的次數, 這種次數越大, 則其影響範圍越大, 其他人的交流渠道與此人也就越密切, 因此節點也就越重要。
      使用介數可以準確找到網絡中某些“流量”非常大的重要節點, 但其缺點是介數的計算複雜度非常高。

    • 特徵向量
      是從網絡中成員的地位或名望角度考慮, 將單個成員的名望看成是所有其他成員名望的線性組合, 從而得到一個線性方程組, 該方程組的最大特徵值所對應的特徵向量就是各個節點的重要性指標。
      (沒太明白T_ T|||)

  • 系統科學分析方法
    核心思想:是“破壞性等價於重要性”,利用網絡的連通性來反映系統某種功能的完整性,通過度量節點刪除對網絡連通的破壞程度來反映網絡節點(集)的重要性。
    系統科學分析方法主要研究的是系統的“核”與“核度”。


    • “核”定義爲那些對系統功能來講具有重要的或支配性作用的且一旦遭到破壞會使整個系統癱瘓或造成重大損失的節點或者節點的集合。
    • 核度
      用點割集和連通分支的數量來定義。
      通過核和核度來研究節點(集)重要性的思路, 源於圖論中點割集的概念 , 即是通過度量節點(集)被刪除後對網絡連通的破壞程度來定義其重要性的。對網絡連通的破壞程度越大, 被刪除的節點(集)越重要, 因爲網絡連通的維持依賴於它們的存在。
      但是存在一個問題就是對於不同的點割集,無法判斷點割集之間誰更重要, 因爲每一個點割集的刪除都會使圖不再連通,同樣,點割集中的節點也不能比較誰更重要。
      延伸:也可以通過計算刪除某兩個節點間最短路徑上的節點後,這兩個節點之間距離的增加值來衡量;也可以刪除圖中的節點後,看其生成樹的數量的變化,數量越少表明節點越重要。
  • 信息搜索領域分析方法
    核心思想:將圖看做互聯網。即節點代表網頁,邊代表網頁之間的超鏈接。其中著名的算法有PageRank和HITS算法。這裏簡單介紹一下PageRank算法思想:
    當網頁 A 有一個鏈接指向網頁 B 時, 就認爲網頁 B 獲得了一定的分數, 該分值的多少取決於網頁 A 的重要程度, 即網頁 A 的重要性越大, 網頁B 獲得的分數就越高。 由於 Web 上鍊接相互指向的複雜程度, 該分值的計算過程是一個迭代過程, 最終網頁將依照所得的分數進行排序並將檢索結果送交用戶。

  • 網絡中節點的相對重要性
    核心思想:以某些節點(集)爲根節點,計算其他節點對於根節點的重要性。前面介紹的所有方法都是從全局的角度出發,來對節點的重要性進行排序,而沒有研究節點(集)之間相對重要性。
    White 和 Smyth 通過對四種漸近性的問題描述, 定義了一個通用的基礎架構, 來發掘網絡中節點的相對重要性:
    這裏寫圖片描述

這篇文章從不同的學科角度來總結了一些重點節點發掘方法的綜述,對於具體方法和算法的實現、結果的分析,以後會慢慢學習。


參考文獻:
赫南,李德毅,淦文燕,朱熙. 複雜網絡中重要性節點發掘綜述. 計算機科學. 2007年12期:1-6
Linyuan Lu,Duanbing Chen et al. Vital nodes identification in complex networks. Pyhsics Reports【J】. 10.1016/j.physrep.2016.06.007


注:轉載請註明原文出處:
作者:CUG_UESTC
出處:http://blog.csdn.net/qq_31192383/article/details/53079312

發佈了30 篇原創文章 · 獲贊 252 · 訪問量 26萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章