原创 機器學習入門 --- 基於隨機森林的氣溫預測(三)隨機森林參數選擇

本文中將針對樹模型的參數進行優化 數據預處理 前面已經做過好幾次數據預處理了,這裏直接上代碼 得到數據 # 導入工具包 import pandas as pd import numpy as np from sklearn.mod

原创 機器學習入門 --- 邏輯迴歸算法(公式推導)

邏輯迴歸算法原理 邏輯迴歸算法是一個分類算法,經典的二分類算法 在機器學習中,關於算法的選擇:先邏輯迴歸再用複雜的,能簡單還是用簡單的 邏輯迴歸的決策邊界:可以是線性的,也可以是非線性的 Sigmoid 函數 公式: g(z)

原创 機器學習入門 --- 基於隨機森林的氣溫預測(一)使用隨機森林算法完成基本建模任務

任務概述 此任務中,我們要完成三項任務: 使用隨機森林算法完成基本建模任務 基本任務需要我們處理數據,觀察特徵,完成建模並進行可視化展示分析 觀察數據量與特徵個數對結果影響 在保證算法一致的前提下, 加大數據個數,觀察結果變換。

原创 機器學習入門 --- 集成算法

集成算法 Bagging 此算法是並行訓練多個分類器後取平均 f(x)=1M∑m=1Mfm(x) f(x) = \frac{1}{M}\sum_{m=1}^{M}f_m(x) f(x)=M1​m=1∑M​fm​(x) 全稱: Bo

原创 機器學習入門 --- K近鄰算法實戰(Sklearn庫與KNN)

K近鄰算法概述 這是機器學習中的第一個算法,也是機器學習中的入門級別算法,它既可以做分類任務,也可以做迴歸任務。用官方的話來說,所謂K近鄰算法,即是給定一個訓練數據集,對新的輸入實例,在訓練數據集中找到與該實例最鄰近的K個實例(也

原创 機器學習入門 --- 邏輯迴歸 信用卡欺詐檢測實戰

機器學習|學習筆記 — 基於信用卡的交易記錄數據建立分類模型,預測交易記錄是否正常 任務流程 加載數據,觀察問題 查看數據是否有缺失值、異常值或者無法直接使用的值 針對問題給出解決方案 根據數據用途提前構思,做出方案再進行預處理

原创 機器學習入門 --- 梯度下降原理(公式推導)

梯度下降概述 梯度下降是機器學習中的一種真正的求解的思路(優化算法) 引入 當我們得到了一個目標函數後,如何進行求解?直接求解? 並不一定可解,線性迴歸可以當做是一個特例,在所有的機器學習問題當中,除了線性迴歸中可以直接求解,其他

原创 機器學習入門 --- 線性迴歸算法(公式推導)

線性迴歸問題概述 在本文中,將根據這個銀行貸款的數據例子,進行迴歸問題的公式推導 工資 年齡 額度 4000 25 20000 8000 30 70000 5000 28 35000 7500 33 50

原创 機器學習入門 --- 貝葉斯算法

貝葉斯算法概述 貝葉斯要解決的問題: 正向概率:假設袋子裏面有N個白球,M個黑球,伸手進去摸球,摸出黑球的概率是多大 逆向概率:如果我們事先並不知道袋子裏面黑白球的比例,而是閉着眼睛摸出一個(或好幾個)球,觀察這些取出來的球的顏色

原创 PaddlePaddle學習之使用PaddleDetection在樹莓派4B進行模型部署(三)--- 樹莓派4B部署

PaddlePaddle學習之使用PaddleDetection在樹莓派4B進行模型部署(一)— 項目環境搭建 PaddlePaddle學習之使用PaddleDetection在樹莓派4B進行模型部署(二)— 深度學習模型訓練 P

原创 PaddlePaddle學習之使用PaddleDetection在樹莓派4B進行模型部署(一)--- 項目環境搭建

PaddlePaddle學習之使用PaddleDetection在樹莓派4B進行模型部署(一)— 項目環境搭建 PaddlePaddle學習之使用PaddleDetection在樹莓派4B進行模型部署(二)— 深度學習模型訓練 P

原创 機器學習入門 --- 基於隨機森林的氣溫預測(二)數據與特徵對隨機森林的影響

在 機器學習入門 — 基於隨機森林的氣溫預測(一)使用隨機森林算法完成基本建模任務 中,只用了2016年一個年份的數據來進行實驗,本文將增加數據量,把 2011 - 2016 年的數據都拿進來,與原結果進行一個對比 數據展示 #

原创 機器學習入門 --- K-means、DBSCAN聚類算法(概念、圖解、代碼示例)

聚類概念 聚類是把相似的東西分到一組,它是一個無監督問題,沒有標籤使用 難點: 對於有標籤的有監督學習問題,標籤可以便於我們來評估模型,無監督學習問題在評估上比較難一點 對於不同的參數組合,得到的學習結果,因爲比較難對模型做評估,

原创 機器學習 --- 支持向量機(Support Vector Machine)推導+實例

支持向量機(Support Vector Machine) 支持向量機要解決的問題 要解決的問題:什麼樣的決策邊界纔是最好的呢? 以一個二分類問題爲例,對於兩個類別,可以有多種決策邊界,需要找到一個最好的那個決策邊界 特徵數

原创 機器學習 --- GBDT提升算法(Gradient Boosting)

Gradient Boosting 以梯度爲優化目標,以提升將整個架構串在一起,用決策樹當做模型細節中的每一個小部分 分類迴歸樹(CART) 數據集:{((x(1),y(1)),(x(2),y(2)),...,(x(m),y(m)