數據挖掘學習指引

        對於當前熱門的大數據、雲計算等技術,被百度、阿里等國內互聯網巨頭炒的很火,數據挖掘作爲一門很實用的技術,在商業管理、市場分析、科學計算等大數據方面發揮着大作用。

       數據挖掘技術也變得很火,why?

       1、數據挖掘作爲市場營銷的一個手段,可以將潛在的商業信息捕獲。指商業公司根據客戶以前的消費記錄,預測消費者的喜好、興趣,可以開展定向營銷,以促進雙方贏利。典型的尿片+beer組合就不說了;例如,銀行系統可以根據客戶突然的大範圍消費,可以預測該客戶可能買房、結婚等,進而向樓盤、婚慶所介紹生意等。

        2、數據挖掘可以爲決策者提供知識。數據很大,知識很少;在數據庫中保存的巨大數據,如何利用這些數據,尋找客戶消費、分類等潛在的規律。這個優勢在電信、銀行、超市等行業有很多體現。例如,某國電信公司將10年的國民打電話數據發給研究機構,以制定出合適的電話收費方案和管理政策。

        隨着電子商務、股票系統、信用卡交易等商業範疇內的大數據興起,數據挖掘在發現新知識以提供定製的客戶關係管理(CRM)。

       簡單介紹了數據挖掘的幾個實際應用案例後,什麼是數據挖掘?

       data mining,是指從巨大的數據集中發掘有用的、新奇的、可理解的模型。data mining通過數據庫、機器學習(貝葉斯分類器、決策樹等)、數理統計、神經網絡等多學科的理論、規則來實現的。    

       掌握數據挖掘,需要了解數據挖掘的幾種模型和數據庫類型。

       1、關聯規則:從數據庫中找到高頻出現的屬性組或項目組。例如,beer和尿布,badminton 和 battledore等。

       2、分類器:從數據訓練建立分類器,輸入新數據進行分類。例如,決策樹等,在信用卡評估中銀行根據記錄的客戶信用卡交易、借貸償還等數據評估信用等級。

       3、聚類(clustering):將數據集分組,使得組內元素間有很高的相似性,組間無相似性。例如,電商通過客戶瀏覽相似商品判斷客戶的分類,通過判斷生物特徵進行物種分類。

       4、順序挖掘:根據很多個序列,找到高頻發生的子序列。例如,商家賣給你一臺電腦,可能9個月後會推薦給你一臺打印機或者路由器。

       5、異常檢測:給出n個點,發現某個點k的值超過範圍,k點具有異常性。      

       數據挖掘,前提是大數據,從海量數據中發現模型和知識,所以模型建立的基礎必須基於數據。而各種各樣的數據類型,即爲數據挖掘帶來了發展空間又帶來了挑戰。現在介紹數據挖掘中常見的幾種數據類型:

       1、關係型數據庫中的鏈表。題外話,關係型數據管理系統能簡單提供數據查詢,但是並不能帶來更多的知識。

       2、數據倉庫。數據倉庫是將數據庫中的數據進行清理、集成,爲數據挖掘建立模型提供源數據。

       3、空間數據。例如遙感衛星採集的地圖信息、集成電路的pcb設計與檢測等

       4、圖,多媒體,文本數據庫等。

       數據挖掘雖然發展很成熟,但是瞭解這門技術最新的發展方向和遇到的挑戰、改進的地方也很有必要。

        1、數據挖掘高性能、高移植性的算法發現。經典算法的使用難道幾十年都不變?

        2、與用戶的交互性改進。數據庫技術有專門的數據查詢語言SQL,數據挖掘能發展出一門語言嗎?

        3、數據挖掘結果的可視化。

        更多的專業技術的探討和研究可以參考數據挖掘的國際會議與期刊,例如 IEEE ICDM,PKDD,ACM data mining and knowledge discovery。

        數據倉庫和OLAP技術

        數據倉庫是數據挖掘的處理對象,在做數據分析時,需要從海量的數據庫中匯合數據,集成後變成數據倉庫,然後利用數學分析和建立模型來分析數據,然後得到知識應用於決策分析。所以數據倉庫具有集成、面向主題的特徵,區別於面向事務的數據庫;數據庫考慮的是事務流處理,建立一個表,每個屬性代表着解決事物的具體意義,數據倉庫是集成不同源的數據庫,通過模型分析,找到具有某種內在聯繫的規律或者分類。

       OLTP和OLAP是分別針對DBMS和DM提出來的在線處理,OLTP實時處理事務,例如顧客註冊、圖書登記、商品上架等;OLAP則是利用模型處理過去某段時間裏的數據集。

       前面講了這麼多數據倉庫和數據庫的區別與聯繫,怎麼建立數據倉庫呢?下面要介紹的是從表和電子表格中建立數據立方塊(data cube)。

       data cube,是數據倉庫中的多維數據模型,方便做統計與分析。不同的維代表着不同的item,可以roll up 和drill down來累加某個維度上的數據。

       數據倉庫的概念模型(conceptual modeling),主要有三種:star schema、snowflake schema、fact constellation,也就是星型模型、雪花模型、星座模型,這些模型的建立就像各自的外在表現一樣,星型模型呈中心發散狀,雪花模型呈末端發散狀,星座模型呈多個雪花狀相互聯繫的狀態。重要的是數據倉庫不僅包含schema中每個維度的item,還包含對這些維的操作(measures)。

        數據預處理,是構建數據倉庫的重要環節,包含數據清理、數據變換、數據降維等。

        數據清理,主要是指某些數據無意義、數據缺失、挑選某些屬性關聯的工作;數據變換,主要指標準化數據,歸一化等;數據降維,指某些維數相關的數據可以消去等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章