數據挖掘::實驗一 WEKA分類

目錄

一、實驗目的  

二、實驗環境 

三、實驗要求

四、實驗過程及結果

(1)KNN分類器:

(2)C4.5決策樹分類器:

(3)樸素貝葉斯分類器:

五、實驗總結

 

一、實驗目的  

使用數據挖掘中的分類算法,對數據集進行分類訓練並測試。應用不同的分類算法,比較他們之間的不同。與此同時瞭解Weka平臺的基本功能與使用方法。 

二、實驗環境 

實驗採用Weka 3.8 平臺,數據使用給定的鳶尾花xls格式的數據集iris.xls。 對於iris數據集,它包含了150個實例(每個分類包含50個實例),共有sepal length、sepal width、petal length、petal width和class五種屬性。期中前四種屬性爲數值類型,class屬性爲分類屬性,表示實例所對應的類別。該數據集中的全部實例共可分爲三類:Iris Setosa、Iris Versicolour和Iris Virginica。

實驗所需的訓練集和測試集均爲iris.arff。

三、實驗要求

1、將iris.xls轉化爲iris.arff。

2、應用iris數據集,分別採用KNN、C4.5決策樹分類器和樸素貝葉斯分類器進行測試和評價,分別在訓練數據上訓練出分類模型,並對三個模型進行全面評價比較,得到一個最好的分類模型以及該模型所有設置的最優參數。

3、使用這些參數以及訓練集和校驗集數據一起構造出一個最優分類器,並利用該分類器對測試數據進行預測。

四、實驗過程及結果

1、先將數據集iris.arff放入Weka 3.8 平臺中

第一步:將原始Excel文件另存爲CSV文件

 

第二步:在weka中打開iris數據集.csv文件,另save爲.arrf文件,然後在weka中打開iris數據集.arrf文件即可。

 

2、在waka中應用iris數據集,分別採用KNN、C4.5決策樹分類器和樸素貝葉斯分類器進行測試和評價。

打開iris數據集remove(移除)無關數據,本次試驗中去掉原數據中的序號:

 

(1)KNN分類器:

關於K的取值,從1開始,逐次增1選取產生最小誤差率的K,一般來說不超過20。先將數據作爲訓練集檢測,在進行交叉驗證。

 

 

 

 

kNN算法的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別,並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時,只與極少量的相鄰樣本有關。由於kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對於類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更爲適合。

(2)C4.5決策樹分類器:

C4.5算法是ID3算法的改進,C4.5算法與ID3算法一樣使用了信息熵的概念,並和ID3一樣通過學習數據來建立決策樹。

 

 

 

 

 

由實驗數據可得,鳶尾花花瓣寬度小於等於0.6cm的均爲setosa類的鳶尾花;花瓣寬度大於0.6cm且花瓣長度小於等於1.7cm的有48株爲versicolor種類的鳶尾花;花瓣寬度大於0.6cm且花瓣長度大於1.7cm的有46株爲virginica種類的鳶尾花。

(3)樸素貝葉斯分類器:

貝葉斯方法提供了推理的一種概率手段。它假定待考查的變量遵循某種概率分佈,且可根據這些概率及己觀察到的數據進行推理,從而作出最優的決策。

本次實驗利用樸素貝葉斯算法分類結果如圖所示:

 

五、實驗總結

應用iris數據集分別利用實驗中的算法分析預測,最終結果選用C4.5算法準確率最高,準確分類率爲98%。通過實驗,也讓我更深刻的學習到這三種算法的應用數據集和其優缺點,基本掌握weka平臺操作。

關於KNN算法是最簡單有效的分類算法,簡單且容易實現。當訓練數據集很大時,需要大量的存儲空間,而且需要計算待測樣本和訓練數據集中所有樣本的距離,所以非常耗時。KNN對於隨機分佈的數據集分類效果較差,對於類內間距小,類間間距大的數據集分類效果好,而且對於邊界不規則的數據效果好於線性分類器。KNN對於樣本不均衡的數據效果不好,需要進行改進。改進的方法時對k個近鄰數據賦予權重,比如距離測試樣本越近,權重越大。KNN很耗時,時間複雜度爲O(n),一般適用於樣本數較少的數據集,當數據量大時,可以將數據以樹的形式呈現,能提高速度,常用的有kd-tree和ball-tree。

關於C4.5算法

優點:產生的分類規則易於理解,準確率較高。

缺點:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。此外,C4.5只適合於能夠駐留於內存的數據集,當訓練集大得無法在內存容納時程序無法運行。

關於樸素貝葉斯算法,貝葉斯方法不僅能夠計算顯式的假設概率,還能爲理解多數其他方法提供一種有效的手段貝葉斯方法的特點主要包括:增量式學習的特點;先驗知識可以與觀察到的實例一起決定假設的最終概率的特點;允許假設做出不確定性預測的特點;對新實例的分類可由多個假設以它們的概率爲權重一起作出預測的特點等等。算法處理裏的數據集特徵之間互不相關,主要應用於文本分類、性別分類。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章