原创 《python機器學習及實踐_從零開始通往kaggle競賽之路》——讀書筆記

一、簡介   1、什麼是機器學習   A program can be said to learn from experience E with respect to some class of tasks T and performan

原创 論文閱讀(1) —— Character Region Awareness for Text Detection

論文地址:https://arxiv.org/abs/1904.01941 Pytorch代碼實現 https://github.com/clovaai/CRAFT-pytorch 自制PPT下載地址:https://downl

原创 機器學習(3) -- 線性模型

3.1 基本形式 w直觀表達了各屬性在預測中的重要性,因此線性模型有很好的解釋性   3.2 線性迴歸 對離散屬性,若屬性值之間存在“序”關係,可通過連續化將其轉化爲連續值,如高矮可轉換爲{1,0},高中低可轉化爲{1,0.5,0};

原创 手寫PCA -- 人臉重建

純手寫,有助於深入理解PCA ''' 數據描述: X 大小:m×n ---n個m維樣本 每一列是一個樣本 ''' import os import glob import cv2 import numpy as np

原创 機器學習(15) -- 規則學習

15.1 基本概念 機器學習中的“規則”通常指語義明確、能描述數據分佈所隱含的客觀規律或領域概念、可寫成“若……,則……”形式的邏輯規則。 規則學習是從訓練數據中學習出一組能用於對 未見示例進行判別的規則。規則學習具有更好的解釋性。 集

原创 機器學習(8) -- 集成學習

8.1 個體與集成 集成學習通過構建並結合多個學習器來完成學習任務,有時也被稱爲多分類器系統,基於委員會的學習等。 同質集成,只包含同種類型的個體學習器,同質集成的個體學習器亦稱“基學習器”,相應的學習算法爲“基學習算法” 異質集成,包含

原创 機器學習(6) -- 支持向量機

6.1 間隔與支持向量 優化 即 6.2 對偶問題 對上式使用拉格朗日乘子法可得其對偶問題 分別對我w,b求偏導 代入L(w,b,α),消去w,b,即得 ----------1式 求解α,代入模型 上述過程滿足KKT條件:

原创 機器學習應用(1)

一、波士頓房價預測 這是一個迴歸問題 利用boston數據集,對數據標準化後進行迴歸,並進行多模型對比。 代碼如下: import pandas as pd import numpy as np from sklearn.data

原创 機器學習(10) -- 降維與度量學習

10.1 k近鄰學習 懶惰學習:在訓練階段僅僅把樣本保存起來,訓練時間開銷爲零,待收到測試樣本後再進行處理; 急切學習:在訓練階段就對樣本進行學習處理的方法。   最近鄰分類器的泛化錯誤率不超過貝葉斯最優分類器的錯誤率的兩倍 給定樣本x,

原创 機器學習(1) -- 緒論

1.1 引言 機器學習:研究如何通過計算的手段,利用經驗來改善系統自身地性能。“經驗”以數據的形式存在 計算機科學:研究關於“算法”的學問 機器學習: 研究關於“學習算法”的學問 模型:泛指從數據中學得的結果 1.2 基本術語:

原创 機器學習(4) -- 決策樹

4.1 基本流程 一般,一個決策樹包含根節點、若干內部節點和若干葉節點;葉節點對應於決策結果,其他每個節點則對應於一個屬性測試;每個節點包含的樣本集合根據屬性測試的結果被劃分到子結點中;根節點包含樣本全集。從根節點到每個葉結點的路徑對應了

原创 機器學習(9) -- 聚類

9.1 聚類任務 聚類試圖將數據集中的樣本劃分爲若干個通常不想交的子集,每個子集稱爲一個簇。 9.2 性能度量 聚類性能度量大致兩類:外部指標、內部指標 外部指標:將聚類結果與某個“參考模型”進行比較 內部指標:考察聚類結果 而不利用任何

原创 深度學習 - 深度學習的數據表示

深度學習的數據表示 張量是一個數據容器。它包含的數據幾乎總是數值數據,因此它是數字的容器。矩陣是二維張量。張量是矩陣向任意維度的推廣。 張量的維度通常叫作軸 標量(0D 張量):僅包含一個數字的張量叫作標量(scalar,也叫標量

原创 深度學習 --- 正則化

有許多正則化策略。 有些策略向機器學習模型添加限制參數值的額外約束。 有些策略向目標函數增加額外項來對參數值進行軟約束 有時候,這些約束和懲罰被設計爲編碼特定類型的先驗知識; 其他時候,這些約束和懲罰被設計爲偏好簡單模型,以便提高泛化能力

原创 機器學習(2) -- 模型評估與選擇

2.1 經驗誤差與過擬合 錯誤率:分類錯誤的樣本數佔總樣本數的比例 精度 = 1 - 錯誤率   誤差:學習器的實際預測輸出與樣本的真實輸出之間的“差異”  學習器在訓練集上的誤差稱爲“訓練誤差”或“經驗誤差”  在新樣本上的誤差稱爲“泛