聚類算法和分類算法

常用的分類算法包括：
決策樹分類法
樸素的貝葉斯分類算法(native Bayesian classifier)
基於支持向量機(SVM)的分類器
神經網絡法
k-最近鄰法(k-nearest neighbor，kNN)
模糊分類法

下文出處
常見的聚類算法包括：
①基於劃分的聚類算法
k-means：是一種典型的劃分聚類算法，它用一個聚類的中心來代表一個簇，即在迭代過程中選擇的聚點不一定是聚類中的一個點，該算法只能處理數值型數據
k-modes： K-Means算法的擴展，採用簡單匹配方法來度量分類型數據的相似度
k-prototypes：結合了K-Means和K-Modes兩種算法，能夠處理混合型數據
k-medoids：在迭代過程中選擇簇中的某點作爲聚點，PAM是典型的k-medoids算法
CLARA： CLARA算法在PAM的基礎上採用了抽樣技術，能夠處理大規模數據
CLARANS： CLARANS算法融合了PAM和CLARA兩者的優點，是第一個用於空間數據庫的聚類算法
Focused CLARAN：採用了空間索引技術提高了CLARANS算法的效率
PCM：模糊集合理論引入聚類分析中並提出了PCM模糊聚類算法

②基於層次聚類算法：
CURE：採用抽樣技術先對數據集D隨機抽取樣本，再採用分區技術對樣本進行分區，然後對每個分區局部聚類，最後對局部聚類進行全局聚類
ROCK：也採用了隨機抽樣技術，該算法在計算兩個對象的相似度時，同時考慮了周圍對象的影響
CHEMALOEN（變色龍算法）：首先由數據集構造成一個K-最近鄰圖Gk ,再通過一個圖的劃分算法將圖Gk 劃分成大量的子圖,每個子圖代表一個初始子簇,最後用一個凝聚的層次聚類算法反覆合併子簇，找到真正的結果簇
SBAC： SBAC算法則在計算對象間相似度時，考慮了屬性特徵對於體現對象本質的重要程度，對於更能體現對象本質的屬性賦予較高的權值
BIRCH： BIRCH算法利用樹結構對數據集進行處理，葉結點存儲一個聚類，用中心和半徑表示，順序處理每一個對象，並把它劃分到距離最近的結點，該算法也可以作爲其他聚類算法的預處理過程
BUBBLE： BUBBLE算法則把BIRCH算法的中心和半徑概念推廣到普通的距離空間
BUBBLE-FM： BUBBLE-FM算法通過減少距離的計算次數，提高了BUBBLE算法的效率

③基於密度聚類算法：
DBSCAN： DBSCAN算法是一種典型的基於密度的聚類算法，該算法採用空間索引技術來搜索對象的鄰域，引入了“核心對象”和“密度可達”等概念，從核心對象出發，把所有密度可達的對象組成一個簇
GDBSCAN：算法通過泛化DBSCAN算法中鄰域的概念，以適應空間對象的特點
DBLASD：
OPTICS： OPTICS算法結合了聚類的自動性和交互性，先生成聚類的次序，可以對不同的聚類設置不同的參數，來得到用戶滿意的結果
FDC： FDC算法通過構造k-d tree把整個數據空間劃分成若干個矩形空間，當空間維數較少時可以大大提高DBSCAN的效率

④基於網格的聚類算法：
STING：利用網格單元保存數據統計信息，從而實現多分辨率的聚類
WaveCluster：在聚類分析中引入了小波變換的原理，主要應用於信號處理領域。（備註：小波算法在信號處理，圖形圖像，加密解密等領域有重要應用，是一種比較高深的東西）
CLIQUE：是一種結合了網格和密度的聚類算法
OPTIGRID：

⑤基於神經網絡的聚類算法：
自組織神經網絡SOM：該方法的基本思想是–由外界輸入不同的樣本到人工的自組織映射網絡中，一開始時，輸入樣本引起輸出興奮細胞的位置各不相同，但自組織後會形成一些細胞羣，它們分別代表了輸入樣本，反映了輸入樣本的特徵

⑥基於統計學的聚類算法：
COBWeb： COBWeb是一個通用的概念聚類方法，它用分類樹的形式表現層次聚類
CLASSIT：
AutoClass：是以概率混合模型爲基礎，利用屬性的概率分佈來描述聚類，該方法能夠處理混合型的數據，但要求各屬性相互獨立

f散度的多種常見特例：Ｋｕｌｌｂａｃｋ－Ｌｉｅｂｌｅｒ散度、Ｊｅｎｓｅｎ－Ｓｈａｎｎｏｎ散度、Ｐｅａｒｓｏｎ－ｘ２散度和Ｈｅｌｌｉｎｇｅｒ距離。當f(t)=1-根號t時，f散度稱爲Hellinger距離。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

聚類算法和分類算法

爬蟲基礎（續）

python學習筆記9---scrapy框架

python學習筆記5---（python網絡爬蟲-網絡請求）

基本庫的使用

關於Jupyter的小知識

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結