數據挖掘學習指引

原創

2020-07-07 04:51

對於當前熱門的大數據、雲計算等技術，被百度、阿里等國內互聯網巨頭炒的很火，數據挖掘作爲一門很實用的技術，在商業管理、市場分析、科學計算等大數據方面發揮着大作用。

數據挖掘技術也變得很火，why？

1、數據挖掘作爲市場營銷的一個手段，可以將潛在的商業信息捕獲。指商業公司根據客戶以前的消費記錄，預測消費者的喜好、興趣，可以開展定向營銷，以促進雙方贏利。典型的尿片+beer組合就不說了；例如，銀行系統可以根據客戶突然的大範圍消費，可以預測該客戶可能買房、結婚等，進而向樓盤、婚慶所介紹生意等。

2、數據挖掘可以爲決策者提供知識。數據很大，知識很少；在數據庫中保存的巨大數據，如何利用這些數據，尋找客戶消費、分類等潛在的規律。這個優勢在電信、銀行、超市等行業有很多體現。例如，某國電信公司將10年的國民打電話數據發給研究機構，以制定出合適的電話收費方案和管理政策。

隨着電子商務、股票系統、信用卡交易等商業範疇內的大數據興起，數據挖掘在發現新知識以提供定製的客戶關係管理（CRM）。

簡單介紹了數據挖掘的幾個實際應用案例後，什麼是數據挖掘？

data mining，是指從巨大的數據集中發掘有用的、新奇的、可理解的模型。data mining通過數據庫、機器學習（貝葉斯分類器、決策樹等）、數理統計、神經網絡等多學科的理論、規則來實現的。

掌握數據挖掘，需要了解數據挖掘的幾種模型和數據庫類型。

1、關聯規則：從數據庫中找到高頻出現的屬性組或項目組。例如，beer和尿布，badminton 和 battledore等。

2、分類器：從數據訓練建立分類器，輸入新數據進行分類。例如，決策樹等，在信用卡評估中銀行根據記錄的客戶信用卡交易、借貸償還等數據評估信用等級。

3、聚類（clustering）：將數據集分組，使得組內元素間有很高的相似性，組間無相似性。例如，電商通過客戶瀏覽相似商品判斷客戶的分類，通過判斷生物特徵進行物種分類。

4、順序挖掘：根據很多個序列，找到高頻發生的子序列。例如，商家賣給你一臺電腦，可能9個月後會推薦給你一臺打印機或者路由器。

5、異常檢測：給出n個點，發現某個點k的值超過範圍，k點具有異常性。

數據挖掘，前提是大數據，從海量數據中發現模型和知識，所以模型建立的基礎必須基於數據。而各種各樣的數據類型，即爲數據挖掘帶來了發展空間又帶來了挑戰。現在介紹數據挖掘中常見的幾種數據類型：

1、關係型數據庫中的鏈表。題外話，關係型數據管理系統能簡單提供數據查詢，但是並不能帶來更多的知識。

2、數據倉庫。數據倉庫是將數據庫中的數據進行清理、集成，爲數據挖掘建立模型提供源數據。

3、空間數據。例如遙感衛星採集的地圖信息、集成電路的pcb設計與檢測等

4、圖，多媒體，文本數據庫等。

數據挖掘雖然發展很成熟，但是瞭解這門技術最新的發展方向和遇到的挑戰、改進的地方也很有必要。

1、數據挖掘高性能、高移植性的算法發現。經典算法的使用難道幾十年都不變？

2、與用戶的交互性改進。數據庫技術有專門的數據查詢語言SQL，數據挖掘能發展出一門語言嗎？

3、數據挖掘結果的可視化。

更多的專業技術的探討和研究可以參考數據挖掘的國際會議與期刊，例如 IEEE ICDM，PKDD，ACM data mining and knowledge discovery。

數據倉庫和OLAP技術

數據倉庫是數據挖掘的處理對象，在做數據分析時，需要從海量的數據庫中匯合數據，集成後變成數據倉庫，然後利用數學分析和建立模型來分析數據，然後得到知識應用於決策分析。所以數據倉庫具有集成、面向主題的特徵，區別於面向事務的數據庫；數據庫考慮的是事務流處理，建立一個表，每個屬性代表着解決事物的具體意義，數據倉庫是集成不同源的數據庫，通過模型分析，找到具有某種內在聯繫的規律或者分類。

OLTP和OLAP是分別針對DBMS和DM提出來的在線處理，OLTP實時處理事務，例如顧客註冊、圖書登記、商品上架等；OLAP則是利用模型處理過去某段時間裏的數據集。

前面講了這麼多數據倉庫和數據庫的區別與聯繫，怎麼建立數據倉庫呢？下面要介紹的是從表和電子表格中建立數據立方塊（data cube）。

data cube，是數據倉庫中的多維數據模型，方便做統計與分析。不同的維代表着不同的item，可以roll up 和drill down來累加某個維度上的數據。

數據倉庫的概念模型（conceptual modeling），主要有三種：star schema、snowflake schema、fact constellation，也就是星型模型、雪花模型、星座模型，這些模型的建立就像各自的外在表現一樣，星型模型呈中心發散狀，雪花模型呈末端發散狀，星座模型呈多個雪花狀相互聯繫的狀態。重要的是數據倉庫不僅包含schema中每個維度的item，還包含對這些維的操作（measures）。

數據預處理，是構建數據倉庫的重要環節，包含數據清理、數據變換、數據降維等。

數據清理，主要是指某些數據無意義、數據缺失、挑選某些屬性關聯的工作；數據變換，主要指標準化數據，歸一化等；數據降維，指某些維數相關的數據可以消去等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘學習指引

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

KubeKey 部署 K8s v1.28.8 實戰

818工程師職業的看法與體會。

嵌入式系統開發的架構和應用

數據挖掘學習指引

C、C++、Java的基礎常識介紹

淺談C++和JAVA的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結