分類預測&聚類
分類和聚類的不同,點擊進行學習。
分類
概念
建立模型,描述預定的數據類集或概念集;之後使用模型進行分類。
預測
構造和使用模型評估無標號樣本類,或評估給定樣本可能具有的屬性值或值區間。
有監督學習(分類)
- 訓練集是帶有類標籤的
- 新的數據是基於訓練集進行分類的
無監督學習(聚類)
- 訓練集是沒有類標籤的
- 提供一組屬性,然後尋找出訓練集中存在類別或者聚集。
關於分類和預測的問題
- 數據準備
- 數據清洗:對數據進行預處理,消除噪音和丟失值
- 相關性分析(屬性選擇):去掉不相關或者冗餘的屬性
- 數據轉換:泛化或者對數據進行標準化
- 評估、比較分類方法
- 預測的準確率
- 速度:創建速度、使用速度
- 健壯性:處理噪聲數據和缺失值數據的能力
- 伸縮性:對大量數據,對磁盤駐留數據的處理能力
- 可解釋性:對模型的k可理解和解釋的程度
- 規則好壞的評價:決策樹的大小、分類規則的簡明性
決策樹
思想(貪心)
- 自上而下分而治之的方法
- 開始時,所有的數據都在根節點上
- 屬性都是離散值字段(if 連續 : 離散化)
- 所有記錄用所選屬性遞歸進行分割
- 屬性的選擇是基於一個啓發式規則或者一個統計的度量
停止分割的條件
- 每一個節點上的數據都是屬於同一個類別
- 沒有屬性可以在用於對數據進行分割
Overfitting
生成的原因
- 太多的分支,有些可能是對異常例外的反應
- 在進行預測的時候準確率較低
解決方法
- 預剪枝
- 難點:選擇一個閾值比較困難
- 後修建
- 使用另外一個測試集來決定那個樹最好
SLIQ算法
點擊進行學習。
貝葉斯分類算法
粗糙集算法
- 解決不確定性問題,是對某一對象集合的近似。
- 處理不確定問題的最大優點:它不需要關於數據的預先或附加的信息,而且易於掌握和使用
- 可用於從數據庫(數據倉庫)中發現分類規則。
聚類
什麼是聚類分析
簇
一個數據對象的集合
聚類分析(無監督)
- 把一個給定的數據對象分成不同的簇
- 在同一個簇中,對象之間具有相似性
- 不同簇的對象之間是相異的
典型應用
- 模式識別
- 空間數據分析
- 圖像處理
- 經濟學(市場研究)
- 分檔分類
eg:市場營銷、土地使用、保險、城市規劃、地震研究
數據挖掘對聚類的要求
- 可伸縮性
- 能夠處理不同類型的屬性
- 能發現任意形狀的簇
- 能夠處理噪聲和異常
- 對輸入數據隨想的順序不敏感
- 能處理高維數據
- 能產生一個好的,滿足用戶指定約束的聚類結果
- 結果是可解釋的、可理解的和可用的
評價方法
一個好的聚類方法要能產生高質量的聚類結果—簇,這些簇具有一下兩個特點:
- 高的簇內相似性
- 低的簇間相似性
So,如何計算相似性
通常使用距離來衡量兩個對象之間的相異度。
- 明考斯基距離(Minkowski distance):
相似性
So,如何計算相似性
通常使用距離來衡量兩個對象之間的相異度。
-
明考斯基距離(Minkowski distance):
[外鏈圖片轉存中…(img-kSASuJsQ-1591021899119)]
-
簡單匹配係數----評價二元變量之間的相似性