數據挖掘是什麼?

衆所周之,數據挖掘(DW)是商業智能(BI)裏相當重要的一部分。那數據挖掘到底是什麼呢,本文將對此探討一下。

人們在日常生活中經常會遇到這樣的情況:超市的經營者希望將經常被同時購買的商品放在一起,以增加銷售;保險公司想知道購買保險的客戶一般具有哪些 特徵;醫學研 究人員希望從已有的成千上萬份病歷中找出患某種疾病的病人的共同特徵,從而爲治癒這種疾病提供一些幫助。

對於以上問題,現有信息管理系統中的數據分析工具無法給出答案。因爲無論是查詢、統計還是報表,其處理方式都是對指定的數據進行簡單的數字處理,而 不能對這些數據所包含的內在信息進行提取。隨着信息管理系統的廣泛應用和數據量激增,人們希望能夠提供更高層次的數據分析功能,從而更好地對決策或科研工 作提供支持。

正是爲了滿足這種要求,從大量數據中提取出隱藏在其中的有用信息,將機器學習應用於大型數據庫的數據挖掘(Data Mining)技術得到了長足的發展。

數據挖掘(DW),也可以稱爲數據庫中的知識發現(Knowledge Discover Database,KDD),是從大量數據中提取出可信、新穎、有效並能被人理解的模式的高級處理過程。

數據庫中的知識發現是一個多步驟的處理過程,一般分爲:

問題定義瞭解相關領域的有關情況,熟悉背景知識,弄清用戶要求。

數據提取根據要求從數據庫中提取相關的數據。
數據預處理主要對前一階段產生的數據進行再加工,檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理,對丟失的數據進行填補。
數據挖掘運用選定的知識發現算法,從數據中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。
知識評估將發現的知識以用戶能瞭解的方式呈現,根據需要對知識發現過程中的某些處理階段進行優化,直到滿足要求。

由此可見,數據挖掘只是數據庫中知識發現的一個步驟,但又是最重要的一步。因此,往往可以不加區別地使用KDD和數據挖掘。一般在研究領域被稱作數 據庫中知識發現的,在工程領域則稱之爲數據挖掘。

本文地址:數據挖掘是什麼?

來源:商業智能聯盟:http://freefeet.net/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章