《集體智慧編程》學習筆記-發現組羣篇

原創

2019-04-03 19:24

1、分級聚類：

通過連續不斷地將最爲相似的羣組兩兩合併，來構造出一個組羣的層次結構。其中每一個組羣都是從單一元素開始的。

分級聚類過程圖

上圖中元素距離越近，它們就越相似。開始時，組羣還只是一個元素。第二步中，A、B已經組成一個新的羣組，新羣組的位置位於這兩個元素中間。然後又和C進行合併。因爲D和E現在是全局範圍內距離最近的兩個元素，故它們構成一個羣組。最後將兩個羣組合並構成最終羣組。

分級聚類的樹狀圖

優點：爲我們返回了一顆形象直觀的樹。

缺點：在沒有格外投入的情況下，樹形視圖是不會真正將數據拆分成不同組。

計算量非常大。

2、k-均值聚類

首先隨機確定k箇中心位置（位於空間中代表聚類中心的點），然後將每個數據項分配給最近的中心點。待分配完成後，聚類中心就會移動到分配給該聚類的所有節點的平均位置，然後整個分配過程重新開始，直到分配過程不在產生變化爲止。

k-均值聚類過程

1圖中兩個中心點隨機分配，2圖顯示了算法將每個數據點分配給最近的中心點。圖三中中心點位置發生變化。圖四C距離上方的中心點更近，故分配給上方中心點，而D、E則是距離下方中心點最近的兩項。如此A、B、C在一個聚類，D、E在一個聚類。

3、距離度量標準

（1）歐幾里得距離：基於計算兩點之間的距離判斷相似度，越近相似度越高。

（2）皮爾遜相關度：如果某一數據集中數據總是高於另一數據集，但兩者的分值之差又始終保持一致，則他們依然可能存在很好的相關性。皮爾遜相關度是判斷兩組數據與某一直線擬合程度的一種度量。在數據不是很規範的時候（即有些數據相對與平均水平偏離很大時），會給出更好的結果。

（3）Tannimoto係數：代表交集（只包含在兩個集合中都出現的項）與並集（包含所有出現於任一集合項）的比率。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.