《集體智慧編程》學習筆記-發現組羣篇

1、分級聚類:

    通過連續不斷地將最爲相似的羣組兩兩合併,來構造出一個組羣的層次結構。其中每一個組羣都是從單一元素開始的。

分級聚類過程圖

    上圖中元素距離越近,它們就越相似。開始時,組羣還只是一個元素。第二步中,A、B已經組成一個新的羣組,新羣組的位置位於這兩個元素中間。然後又和C進行合併。因爲D和E現在是全局範圍內距離最近的兩個元素,故它們構成一個羣組。最後將兩個羣組合並構成最終羣組。

分級聚類的樹狀圖

  優點:爲我們返回了一顆形象直觀的樹。

  缺點:在沒有格外投入的情況下,樹形視圖是不會真正將數據拆分成不同組。

           計算量非常大。

2、k-均值聚類

  首先隨機確定k箇中心位置(位於空間中代表聚類中心的點),然後將每個數據項分配給最近的中心點。待分配完成後,聚類中心就會移動到分配給該聚類的所有節點的平均位置,然後整個分配過程重新開始,直到分配過程不在產生變化爲止。

k-均值聚類過程

  1圖中兩個中心點隨機分配,2圖顯示了算法將每個數據點分配給最近的中心點。圖三中中心點位置發生變化。圖四C距離上方的中心點更近,故分配給上方中心點,而D、E則是距離下方中心點最近的兩項。如此A、B、C在一個聚類,D、E在一個聚類。

3、距離度量標準

      (1)歐幾里得距離:基於計算兩點之間的距離判斷相似度,越近相似度越高。

      (2)皮爾遜相關度:如果某一數據集中數據總是高於另一數據集,但兩者的分值之差又始終保持一致,則他們依然可能存在很好的相關性。皮爾遜相關度是判斷兩組數據與某一直線擬合程度的一種度量。在數據不是很規範的時候(即有些數據相對與平均水平偏離很大時),會給出更好的結果。

      (3)Tannimoto係數:代表交集(只包含在兩個集合中都出現的項)與並集(包含所有出現於任一集合項)的比率。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章