數據挖掘概念複習

數據挖掘側重應用,理論不是很難理解,快考試了,回顧一下常見的概念。

數據挖掘其實就是在一堆數據裏找規律來預測。數據挖掘的過程主要有數據準備和數據挖掘,數據準備的過程很重要,甚至超過了挖掘,涉及到的概念有數據倉庫、數據集成;數據挖掘主要解決四類問題:分類問題、聚類問題、關聯問題、預測問題。

數據倉庫其實也是一個數據庫,常見的數據庫側重事務處理,數據倉庫側重分析決策。還有一個數據集市,它與數據倉庫的區別是數據倉庫是企業範圍的,多個主題建模;數據集市是部門範圍的,單個主題建模。

分類就是將對象和已存在的類對應起來;聚類就是物以類聚;分類和聚類的區別就是分類時類別已經存在,聚類時還沒有類別。

分類的主要方法包括:決策樹分類法、基於規則的分類法、神經網絡、支持向量機、樸素貝葉斯分類法等。與決策樹相關的算法有:CLS, ID3,C4.5,CART。ID3算法的核心是在決策樹各節點選擇屬性時用信息增益作爲屬性的選擇標準。

聚類方法有劃分聚類方法(比如k-means)、層次聚類方法、基於密度的聚類方法、基於網格的聚類方法、基於模型的聚類方法。

聯繫是普遍存在的,關聯問題就是發現聯繫,就像傳說中的啤酒尿布。下面是從網上發現的關於關聯分析不錯的描述。

關聯分析要解決的主要問題是:一羣用戶購買了很多產品之後,哪些產品同時購買的機率比較高?買了A產品的同時買哪個產品的機率比較高?可能是由於最初關聯分析主要是在超市應用比較廣泛,所以又叫“購物籃分析”。

如果在研究的問題中,一個用戶購買的所有產品假定是同時一次性購買的,分析的重點就是所有用戶購買的產品之間關聯性;如果假定一個用戶購買的產品的時間是不同的,而且分析時需要突出時間先後上的關聯,如先買了什麼,然後後買什麼?那麼這類問題稱之爲序列問題,它是關聯問題的一種特殊情況。從某種意義上來說,序列問題也可以按照關聯問題來操作。

關聯分析有三個非常重要的概念,那就是“三度”:支持度、可信度、提升度。假設有10000個人購買了產品,其中購買A產品的人是1000個,購買B產品的人是2000個,AB同時購買的人是800個。支持度指的是關聯的產品(假定A產品和B產品關聯)同時購買的人數佔總人數的比例,即800/10000=8%,有8%的用戶同時購買了A和B兩個產品;可信度指的是在購買了一個產品之後購買另外一個產品的可能性,例如購買了A產品之後購買B產品的可信度=800/1000=80%,即80%的用戶在購買了A產品之後會購買B產品;提升度就是在購買A產品這個條件下購買B產品的可能性與沒有這個條件下購買B產品的可能性之比,沒有任何條件下購買B產品可能性=2000/10000=20%,那麼提升度=80%/20%=4。

數據挖掘的典型算法:

*ID3,C4.5(決策樹)

*Thek-means algorithm(聚類)

Supportvector machines(支持向量機)

*TheApriorialgorithm(關聯規則)

TheEM algorithm(迭代優化算法)

* PageRank(網頁等級/重要性算法)

* AdaBoost(迭代分類算法)

*kNN:k-nearestneighbor classification(基於事例的學習)

NaiveBayes(貝葉斯學習)

CART(增量學習算法)



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章