數據挖掘的常見方法

數據挖掘的常見方法

基本概念

數據挖掘就是從大量的、不完全的、有噪聲的、模糊的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。確切地說,作爲一門廣義的面向應用的交叉學科,數據挖掘集成了許多學科中成熟的工具和技術,包括數據倉庫技術、統計學、機器學習、模型識別、人工智能、神經網絡等等。

過程模型

對企業來說,數據挖掘就是在“數據礦山”中找到蘊藏的“知識金塊”,幫助企業減少不必要投資的同時提高資金回報。目前應用最爲廣泛的數據挖掘過程模型是CRISP-DM(跨行業數據挖掘過程標準,Cross-IndustryStandard Process for Data Mining)。CRISP-DM將整個數據挖掘期分爲6個階段:商業理解(BusinessUnderstanding)、數據理解(DataUnderstanding)、數據準備(Data preparation)、建模(Modeling)、評估(Evaluation)、佈署(Deployment)。CRISP-DM數據挖掘過程模型如下圖:


常用方法

數據挖掘中大部分方法都不是專爲解決某個問題而特製的,方法之間也不互相排斥。不能說一個問題一定要採用某種方法,別的就不行。一般來說,針對某個特定的數據分析課題,並不存在所謂的最好的方法,在最終決定選取哪種模型或方法之前,各種模型都試一下,然後再選取一個較好的。各種方法在不同的數據環境中,優劣會有所不同。

數據挖掘的方法主要有:關聯分析聚類分析預測、時序模式分析偏差分析等。

常見和應用最廣泛的算法和模型有:

1傳統統計方法:抽樣技術、多元統計分析和統計預測方法等。

2可視化技術:用圖表等方式把數據特徵直觀地表述出來。

3決策樹:利用一系列規則劃分,建立樹狀圖,用樹形結構來表示決策集合,可用於分類和預測,常用的算法有CARTCHAIDID3C4.5C5.0等。

4人工神經網絡:模擬人的神經元功能,從結構上模仿生物神經網絡,經過輸入層、隱藏層、輸出層等,對數據進行調整、計算,最後得到結果,是一種通過訓練來學習的非線性預測模型,可以完成分類、聚類、特徵挖掘、迴歸分析等多種數據挖掘任務。

5遺傳算法:基於自然進化理論,在生物進化的概念基礎上設計的一種優化技術,它包括基因組合、交叉、變異和自然選擇等一系列過程,通過這些過程以達到優化的目的,模擬基因聯合、突變、選擇等過程的一種優化技術。

6關聯規則挖掘算法:關聯規則是描述數據之間存在關係的規則,形式爲“A1A2∧…∧AnB1B2∧…∧Bn”。一般分爲兩個步驟:第一步,求出頻繁數據項集;第二步,用頻繁數據項集產生關聯規則。

7最近鄰技術:這種技術通過已辨別歷史記錄的組合來辨別新的記錄,它可以用來做聚類和偏差分析。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章