數據挖掘的功能
數據挖掘的目標是從數據中發現隱含的、有意義的知識。
1. 概念描述
概念描述就是對某類對象的內涵進行描述,並概括這類對象的有關特徵。
l 特徵性描述:用於描述某類對象的共同特徵。
l 區別性描述:用於描述不同類對象之間的區別。
2. 關聯分析
數據關聯是數據中存在的一類重要的可發現的知識,若兩個或多個變量之間存在着某種規律性,就稱爲關聯。關聯分析的目的就是找出數據中隱藏的關聯網。
3. 分類和預測
l 分類:就是依照所分析對象的屬性分門別類、加以定義、建立類組。關鍵是確定對數據按照什麼標準或規則進行分類。
l 預測:利用歷史數據建立模型,再運用最新數據作爲輸入值,獲得未來變化的趨勢或評估給定樣本可能具有的屬性值或值的範圍。
4. 聚類分析
聚類分析又稱無指導學習,其目的在於客觀地按被處理對象的特徵分類,將有相同特徵的對象歸爲一類。
聚類不同與分類,分類規則需要預先定義類別和訓練樣本,而聚類分析直接面向原數據,沒有預先定義好的類別和訓練樣本,所有記錄都根據彼此相似程度來加以歸類。
5. 趨勢分析
又稱時間序列分析,它是從相當長的時間的發展中發現規律和趨勢。趨勢分析和關聯分析相似,都是爲了挖掘出數據之間的聯繫,但趨勢分析的側重點在於分析數據間的前因後果關係。
6. 孤立點分析
孤立點是指數據庫中包含的一些與數據的一般行爲或模型不一致的數據。
大部分的數據挖掘方法將孤立點是爲噪聲或異常丟棄,而對於某些應用,如欺騙檢測,孤立點數據可能更有價值。
7. 偏差分析
偏差分析又稱比較分析,它是對差異和極端特例的描述,用於揭示事物偏離常規的異常現象。
偏差檢測的基本方法是:尋找觀測結果與參照值之間有意義的差別。