數據挖掘的七大任務

轉自:http://www.itongji.cn/article/091210522012.html


數據挖掘的任務可以分爲:分類、聚類、關聯、迴歸、預測、序列分析等,具體的介紹如下:

一、分類:
分類是找出數據庫中一組數據對象的共同特點並按照分類模式將其劃分爲不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業機會。
典型的分類算法:決策樹算法、神經網絡算法、貝葉斯算法
二、聚類:
聚類分析也稱爲細分,它基於一組屬性對事例進行分組,同一個聚類中的或多或少有相似的屬性值。
聚類分析是把一組數據按照相似性和差異性分爲幾個類別,其目的是使得屬於同一類別的數據間的相似性儘可能大,不同類別中的數據間的相似性儘可能小。它可以應用到客戶羣體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。 
 
三、關聯:
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱爲關聯。關聯可分爲簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
有人說啤酒和尿布是沃爾瑪超市的一個經典案例,也有人說,是爲了宣傳數據挖掘/數據倉庫而編造出來的虛構的“託”。不管如何,“啤酒和尿布”給了我們一個啓示:世界上的萬事萬物都有着千絲萬縷的聯繫,我們要善於發現這種關聯。
 
四、迴歸:
迴歸任務類似於分類任務,但它不是查找描述類的模式,它的目的是查找模式以確定數值。簡單的線性線段擬合技術就是迴歸的一個例子,其結果是一個函數,可以根據輸入的值確定輸出。
迴歸分析方法被廣泛地用於解釋市場佔有率、銷售額、品牌偏好及市場營銷效果。把兩個或兩個以上定距或定比例的數量關係用函數形勢表示出來,就是迴歸分析要解決的問題
 
五、預測:
預測技術採用數列作爲輸入,表示一系列時間值,然後應用各種能處理數據週期性分析、趨勢分析、噪聲分析的計算機學習和統計技術來估算這些序列未來的值。
你可以預測某一特定月份的銷售。
  
六、序列分析: 
發現離散序列中的模式,序列由一串離散值(或狀態)組成,例如DNA序列,Web點擊的url序列,購買商品的次序。序列數據和時間序列數據都是連續的觀察值,觀察值相互依賴,區別在於序列包含離散的狀態,而時間序列包含的是連續的數值;序列和關聯數據有相似,都是包含一個項集或一組狀態,區別在於序列模型分析的是狀態的轉移,而關聯模型認爲購物籃的每個商品平等且獨立。序列認爲先買電腦後買揚聲器與先買揚聲器後買電腦是兩個不同序列,關聯則不同。主要的序列分析技術有Markov鏈。
圖描述了某個新網站的Web點擊序列。每個節點是一個URL地址每一條邊標示兩個URL地址的轉移。沒一個轉移用一個權值標示,表示從一個Url地址轉到另一個URL的概率 
七、偏差分析: 
偏差分析又稱比較分析,它是對差異和極端特例的描述,用於揭示事物偏離常規的異常現象。
偏差檢測的基本方法是:尋找觀測結果與參照值之間有意義的差別 
 例子:信用卡欺詐行爲檢測、網絡入侵檢測、劣質產品分析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章