基於JAVA的數據挖掘算法(ID3算法、K-means算法)

(注:本項目爲原創項目 若轉載或引用請聯繫QQ504546888  備註數據挖掘算法 提供前後臺)

開發環境

  • Eclipse 4.2.2 (Juno)
  • JDK 1.8

代碼結構

  • algorithm -- 算法集,可自由加入算法
    • ID3 -- ID3 實現
    • Kmeans -- K-means 實現
  • data -- 數據結構
    • DataSet.java -- 數據集類
    • Attribute.java -- 屬性類
    • Instance.java -- 實例(數據)類
  • gui -- 界面集
    • Main.java -- 主面板
    • AnalysisPanel.java -- 分析面板
    • DataPanel.java -- 數據面板
  • util -- 工具集
    • Reader.java -- 數據讀取工具

數據挖掘是一個以數據庫、人工智能、數理統計、可視化四大支柱技術爲基礎,我們知道,描述或說明一個算法設計分爲三個部分:輸入、輸出和處理過程。數據挖掘算法的輸入是數據庫,算法的輸出 是要發現的知識或模式,算法的處理過程則設計具體的搜索方法。從算法的輸入、輸出和處理過程三個角度分,可以確定數據挖掘主要涉及三個方面:挖掘對象、挖掘任務、挖掘方法。挖掘對象包括若干種數據庫或數據源,例如關係數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據庫、多媒體數據庫、歷史數據庫,以及萬維網(WEB)等。挖掘方法可以粗分爲:統計方法、機器學習方法、神經網絡方法和數據庫方法。統計方法可細分爲:迴歸分析、判別分析等。機器學習可細分爲:遺傳算法等。神經網絡方法可細分爲:前向神經網絡、自組織神經網絡等。數據庫方法主要是多維數據分析方法等。

數據挖掘(Data Mining)技術由此應運而生,數據挖掘技術也正是伴隨着數據倉庫技術的發展而逐步完善起來的。但是並非所有的信息發現任務都被視爲數據挖掘,例如,使用數據庫管理系統查找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。

NLPIR大數據語義智能分析平臺(原ICTCLAS)是北京理工大學大數據搜索與挖掘實驗室張華平主任研發,針對大數據內容採編挖搜的綜合需求,融合了網絡精準採集、自然語言理解、文本挖掘和語義搜索的最新研究成果,先後歷時近二十年的不斷創新。平臺提供了客戶端工具,雲服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類複雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統平臺,可以供Java,Python,C,C#等各類開發語言使用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章