原创 機器學習筆記整理(五)——集成分類

集成學習:把性能較低的多種弱學習器,通過適當組合而形成高性能強學習器的方法。 1.剪枝分類器 剪枝分類器是一種非常簡單的分類器,分類效果較差,但是計算成本低,在集成學習中使用效果很好。 方法:任意選擇輸入變量中的一維,與給定閾值比較進行分

原创 深度學習筆記整理(三)——卷積神經網絡

1.神經認知機模型 由負責對比度提取的G層,負責圖形特徵提取的S細胞層和抗變形的C細胞層交替排列組成。 經過交替排列,反覆迭代,底層提取的局部特徵會逐漸變成全局特徵; 因輸入模式變化引起的畸變可以很好地被C細胞消除,對變形有較好的穩健性。

原创 機器學習筆記整理(二)——最小二乘法

1.最小二乘法 最小二乘法也叫做損失最小化學習法,適用於較小規模數據的學習,有過擬合的弱點。 梯度下降法是適用於大規模數據學習的算法,該方法的收斂速度依賴於梯度下降的步幅及收斂結果的判斷方法。   2.帶有約束條件的最小二乘法 原因:當參

原创 深度學習筆記整理(五)——提高泛化能力的方法

1.訓練樣本 數據增強 方法:通過對樣本圖像平移、旋轉或鏡像翻轉,增加樣本數量; 優點:使有限的數據得到最大程度的有效利用。 使用大規模數據集 ImageNet:基於WorldNet,按層級圖像分類,動物植物食物等,末梢節點包含多張對應圖

原创 深度學習筆記整理(六)——深度學習的應用

1.物體識別 深度學習之前:尺度不變特徵變換方法和支持向量機等機器學習方法組合應用; 2012年:多倫多大學研究團隊提出CNN、ReLU、DropOut的使用,可以自動捕捉到多個方向的邊緣和顏色漸變、網紋圖案等; 2013年:反捲積網絡的

原创 機器學習筆記整理(四)——支持向量機分類

1.間隔最大化分類 分離超平面:,使用分離超平面將正負樣本分割開,即求解爲正的w,r 將經過縮放變形爲,這樣更容易處理 最優解 可以最充分的分離正負樣本的解,即,如下圖: 最優解對應的分類器即硬間隔支持向量機分類器 2.用於線性模型的支

原创 機器學習筆記整理(十)——新興機器學習算法

1.在線學習 逐次學習算法:將訓練樣本逐個輸入到學習算法中,新數據進來時對現有的結果進行更新 當n非常大時,對於有限內存的利用和管理很有效 2.被動攻擊學習 合理選擇損失函數,通過求最優解析解得到最優解;引入懲罰係數,表示偏離現在的解的幅

原创 深度學習筆記整理(二)——神經網絡

1.神經網絡的歷史 第一階段(1940-1970) 1943年,形式神經元模型的產生(M-P模型); 1958年,感知器的提出(經過訓練確定神經元的連接權重); 1969年,提出感知器無法解決線性不可分問題。 第二階段(1980-1990

原创 機器學習筆記整理(九)——聚類

將訓練輸入樣本基於相似度而進行分類的聚類方法 1.K均值聚類 只能處理線性可分的聚類問題 原則上,將簇標籤分配到訓練樣本在,計算簇的分散情況,所有簇分散情況和最小的即最優解,但是這樣計算時間會隨n指數增長。 實際上,將樣本逐個分配到距離其

原创 機器學習筆記整理(八)——無監督降維

1.線性降維 公式:,其中T是m×d維的投影矩陣 2.主成分分析法 儘可能地忠實再現原始數據的所有信息的降維方法 基本原理: 和儘可能相似 => 是的正投影 <=>(m×m的單位矩陣) T通過向訓練輸入樣本的協方差矩陣C中較大的M個特徵

原创 機器學習筆記整理(三)——基於最小二乘法的分類

1.二分類問題 分類問題的損失函數 0/1損失 1/2(1-m),分類錯誤損失爲1,分類正確損失爲0。 缺點是不連續,無法確定最優解,因此提出以下幾種0/1損失的代理損失。 0/1損失的代理損失 損失:即最小二乘法分類,= Hinge損

原创 深度學習筆記整理(四)——自編碼器

1.自編碼器基本原理 概念 一種基於無監督學習的數據維度壓縮和特徵表達方法; 通過不斷調整參數,重構經過維度壓縮的輸入樣本,重構結果和輸入樣本的模式相同,重構結果的圖像相對模糊。 應用 構建一種能夠重構輸入樣本並進行特徵表達的神經網絡;

原创 機器學習筆記整理(六)——概率分類法

原理:對與模式x所對應的類別y的後驗概率p(y|x)進行學習, 邏輯迴歸 ①使用線性對數函數對分類後驗概率進行模型化, ②通過對數似然函數爲最大時的最大似然估計進行求解 ③反覆迭代的概率梯度下降法求 最小二乘概率分類&邏輯迴歸 相同點:結

原创 深度學習筆記整理(一)

機器學習 從已知數據中獲得規律,並利用規律對未知數據進行預測的方法; 一種統計學習方法,需要大量的數據進行學習,主要分爲有監督學習、無監督學習和強化學習三大類。 深度學習 一種機器學習方法,根據輸入數據進行分類或遞歸; 具有多層結構的網絡

原创 機器學習筆記整理(七)——異常檢測

異常檢測:由於沒有與異常值相關的信息,因此實際上理想的異常檢測很困難 下面介紹幾種異常檢測方法: 1.局部異常因子 對偏離大部分數據的異常數據進行檢測的方法。該方法是無監督的異常檢測算法,依賴於事先制定的規則(k值)。 計算過程: 的可達