原创 決策樹算法總結

 決策樹算法實際就是一個不斷分割訓練數據集使其成爲數據子集的過程。這種分類或迴歸模型成樹形結構,這也是其被成爲決策樹算法的主要原因。決策樹算法最主要的問題是如何分裂原始數據集使其數據集包含的類別純度越來越高,於是前輩們引入了熵和信息增益等概

原创 樸素貝葉斯算法的Python實現

注意:1、代碼中的註釋請不要放在源程序中運行,會報錯。    2、代碼中的數據集來源於http://archive.ics.uci.edu/ml/datasets/Car+Evaluation     3、對於樸素貝葉斯的原理,可以查看我的

原创 決策樹算法總結

 決策樹算法實際就是一個不斷分割訓練數據集使其成爲數據子集的過程。這種分類或迴歸模型成樹形結構,這也是其被成爲決策樹算法的主要原因。決策樹算法最主要的問題是如何分裂原始數據集使其數據集包含的類別純度越來越高,於是前輩們引入了熵和信息增益等概

原创 數據挖掘中的樸素貝葉斯算法總結

 樸素貝葉斯分類器是基於貝葉斯理論中屬性獨立假設而創造的一種算法。算法思路簡單:只要是哪個類的後驗概率大待測樣本即爲該類別。所謂後驗概率就是在給定條件發生的情況下,該樣本被判定爲某個類別的概率。後驗概率P(Y|X)表示在屬性集合X(X1,X

原创 Python中列表的陷阱

作爲python的初學者,在做決策樹算法的程序時一個有關列表刪除的問題困擾了一天。今天在博客裏寫出來,希望大家也可以避免如此的問題。下面是代碼綱要:def read_txt(filename):#定義了一個讀txt文件的函數,這個函數的作用

原创 window平臺下安裝KUbuntu的教訓

  因爲看到很多公司招聘需要有linux平臺下的開發經驗,所以今天在筆記本上裝了一個Kubuntu作爲以後學習的平臺。本文采用的是win7+Kubuntu雙系統的模式,儘管最後安裝成功了,但是中間有很多波折在此記下來以備以後再次發生同樣的事

原创 關於Qt中的對話框無緣無故彈出兩次的問題

 今天,用Qt在做一個多線程程序的時候,遇到了一點小障礙。這個程序的功能是這樣的,打開文件夾選擇對話框,選擇多個txt文件。然後後臺對這多個txt文件寫入“hello world”,當寫好一個文件時GUI上顯示寫好文件的名稱。  程序做完看

原创 線性判別分析(LDA)算法總結

       LDA也稱Fisher線性判別法,它是一種非迭代的分類算法。算法的主要思想將特徵空間中的樣本投影到該空間的一條直線上以實現從高維到一維的數據壓縮。顯然這樣的投影有很多方向,而LDA算法就是尋找一個最佳投影方向來使樣本的類內距離

原创 KNN算法的Python實現

# KNN算法思路:#-----------------------------------------------------##step1:讀入數據,存儲爲鏈表#step2:數據預處理,包括缺失值處理、歸一化等#step3:設置K值#s

原创 數據挖掘中的KNN

  K最近鄰算法是分類問題中經常使用的一種非參數方法。算法的思路清晰簡潔:對於待分類的樣本,找出與其最近的K個樣本(即訓練樣本中的K個)。然後對這K個樣本進行投票,待分樣本與多數樣本的類別一致。 在該算法中有兩個最主要的問題:1、最近怎麼評