機器學習（9） -- 聚類

原創

2020-07-01 02:53

9.1 聚類任務

聚類試圖將數據集中的樣本劃分爲若干個通常不想交的子集，每個子集稱爲一個簇。

9.2 性能度量

聚類性能度量大致兩類：外部指標、內部指標

外部指標：將聚類結果與某個“參考模型”進行比較

內部指標：考察聚類結果而不利用任何參考模型

外部指標：

聚類給出的簇劃分：

參考模型給出的簇劃分：

相應的簇標記向量爲λ，λ*

SS包含了在C中隸屬於相同簇且在C*中也隸屬於相同簇的樣本對；a+b+c+d=m(m-1)/2

於是導出下面常用的聚類性能度量外部指標，值在[0,1]，越大越好

Jaccard係數，JC：

FM指數，FMI：

Rand指數，RI：

內部指標：

對於聚類結果簇劃分

於是導出下面常用的聚類性能度量內部指標，DBI越小越好，DI越大越好

DB指數，DBI：

Dunn指數，DI：

9.3 距離計算

距離度量函數 dist(·,·)，需滿足：

非負性：

同一性：，當且僅當

對稱性：

直遞性：

給定樣本

閔可夫斯基距離：

p=2時是歐氏距離

p=1時是曼哈頓距離

閔可夫斯基距離可用於計算連續屬性和有序屬性

無序屬性用VDM，屬性u上兩個離散值a,b之間的VDM距離爲

，表示第i個樣本簇中在屬性u上取值爲a的樣本數

於是，假設有個有序屬性，個無序屬性

加權距離

9.4 原型聚類

亦稱“基於原型的聚類”，此類算法假設聚類結構能通過一組原型刻畫。“原型”是指樣本空間中具有代表性的點

一般，先對原型初始化，然後對原型進行迭代更新求解

K-means

針對聚類所得簇劃分最小化平方誤差：

學習向量量化（LVQ）

和K均值類似，都是試圖找出一組原型向量來刻畫聚類結構，但是假設數據樣本帶有類別標記，學習過程利用樣本的這些監督信息來輔助聚類。

關鍵是如何更新原型向量，對樣本Xj，若最近的原型向量Pi，與Xj的類別標記相同，則令Pi向Xj的方向靠攏。

學得一組原型向量{P1,P2,……Pq}後，即可實現對樣本空間X的簇劃分。對任意樣本x，它將被劃入到與其距離最近的原型向量所代表的簇中；換言之，每個原型向量Pi定義了與之相關的一個區域Ri，該區域中每個樣本與P 的距離不大於它與其他原型向量Pi '的距離。

高斯混合聚類

採用概率模型來表達聚類原型

多元高斯分佈定義：

記爲：

高斯混合分佈：

假設樣本生成過程由高斯混合分佈給出：首先，根據定義的先驗分佈選擇高斯混合成分，其中爲選擇第i個成分的概率；然後，根據被選擇的混合成分的概率密度函數進行採樣，從而生成相應的樣本

極大似然估計：

也就是，假定每個簇都服從高斯分佈，每個簇按各自的分佈生成樣本，所有樣本獨立，所有樣本放在一起對應的是高斯混合分佈

9.5 密度聚類

亦稱“基於密度的聚類”，此類算法假設聚類結構能通過樣本分佈的緊密程度確定。通常，密度聚類算法從樣本密度的角度來考察樣本之間的可連續性，並基於可連接樣本不斷擴展聚類簇以獲得最終的聚類結果。

DBSCAN，基於一組“鄰域”參數刻畫樣本分佈的緊密程度。

ε-鄰域：

核心對象：，的ε-鄰域內至少包含MinPts個樣本，則是一個核心對象

密度直達：位於的ε-鄰域中且是核心對象，則由密度直達

密度可達：對於與，存在序列，=， =，由密度直達，則由密度可達

密度相連：對於與，若存在，使與均由密度可達，則稱與密度相連

DBSCAN將簇定義爲：由密度可達關係導出的最大的密度相連樣本集合。

算法先根據給定的鄰域參數（ε，MinPts）找出所有核心對象，再以任一核心對象爲出發點，找出由其密度可達樣本生成聚類簇，知道所有核心對象都被訪問過爲止

9.6 層次聚類

系統聚類，“自頂向下”，“自底向上”

其他：K均值算法可看作高斯混合聚類在混合成分方差相等、且每個樣本僅指派給一個混合成分時的特例

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比較

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

首批！Zilliz 獲得亞馬遜雲科技生成式 AI 合作伙伴能力認證

Zilliz 正式宣佈通過亞馬遜雲科技生成式 AI 能力認證！這一認證不僅肯定了 Zilliz 在人工智能和非結構化數據領域的卓越能力，也標誌着 Zilliz 在推動 AI 技術創新和應用的道路上邁出了重要一步。亞馬遜雲科技生

2024-06-06 14:16:04

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

24小時熱門文章

最新文章

最新評論文章