數據挖掘的七大任務

原創

hust_xiaowei

2020-07-03 05:53

轉自：http://www.itongji.cn/article/091210522012.html

數據挖掘的任務可以分爲：分類、聚類、關聯、迴歸、預測、序列分析等，具體的介紹如下：

一、分類：

分類是找出數據庫中一組數據對象的共同特點並按照分類模式將其劃分爲不同的類，其目的是通過分類模型，將數據庫中的數據項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測等，如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類，這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中，從而大大增加了商業機會。

典型的分類算法：決策樹算法、神經網絡算法、貝葉斯算法

二、聚類：

聚類分析也稱爲細分，它基於一組屬性對事例進行分組，同一個聚類中的或多或少有相似的屬性值。

聚類分析是把一組數據按照相似性和差異性分爲幾個類別，其目的是使得屬於同一類別的數據間的相似性儘可能大，不同類別中的數據間的相似性儘可能小。它可以應用到客戶羣體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。

三、關聯：

數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性，就稱爲關聯。關聯可分爲簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。

有人說啤酒和尿布是沃爾瑪超市的一個經典案例，也有人說，是爲了宣傳數據挖掘/數據倉庫而編造出來的虛構的“託”。不管如何，“啤酒和尿布”給了我們一個啓示：世界上的萬事萬物都有着千絲萬縷的聯繫，我們要善於發現這種關聯。

四、迴歸：

迴歸任務類似於分類任務，但它不是查找描述類的模式，它的目的是查找模式以確定數值。簡單的線性線段擬合技術就是迴歸的一個例子，其結果是一個函數，可以根據輸入的值確定輸出。

迴歸分析方法被廣泛地用於解釋市場佔有率、銷售額、品牌偏好及市場營銷效果。把兩個或兩個以上定距或定比例的數量關係用函數形勢表示出來，就是迴歸分析要解決的問題

五、預測：

預測技術採用數列作爲輸入，表示一系列時間值，然後應用各種能處理數據週期性分析、趨勢分析、噪聲分析的計算機學習和統計技術來估算這些序列未來的值。

你可以預測某一特定月份的銷售。

六、序列分析：

發現離散序列中的模式，序列由一串離散值（或狀態）組成，例如DNA序列，Web點擊的url序列，購買商品的次序。序列數據和時間序列數據都是連續的觀察值，觀察值相互依賴，區別在於序列包含離散的狀態，而時間序列包含的是連續的數值；序列和關聯數據有相似，都是包含一個項集或一組狀態，區別在於序列模型分析的是狀態的轉移，而關聯模型認爲購物籃的每個商品平等且獨立。序列認爲先買電腦後買揚聲器與先買揚聲器後買電腦是兩個不同序列，關聯則不同。主要的序列分析技術有Markov鏈。

圖描述了某個新網站的Web點擊序列。每個節點是一個URL地址每一條邊標示兩個URL地址的轉移。沒一個轉移用一個權值標示，表示從一個Url地址轉到另一個URL的概率

七、偏差分析：

偏差分析又稱比較分析，它是對差異和極端特例的描述，用於揭示事物偏離常規的異常現象。

偏差檢測的基本方法是：尋找觀測結果與參照值之間有意義的差別

例子：信用卡欺詐行爲檢測、網絡入侵檢測、劣質產品分析

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘的七大任務

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

數據挖掘的七大任務

MinGW安裝和使用基礎教程

C/C++動態數組的創建

latex公式與數學符號

二分圖的最大匹配、完美匹配和匈牙利算法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結