原创 計算機網絡 學習筆記

此文章記錄自己學習計算機網絡筆記 第一章 概述 計算機網絡的七個性能指標 速率:主機傳送數據位數的速率 1Gb/s = 1000 Mb/s = 1000000kb/s = 1000000000b/s 帶寬:數字通道所能傳送的最

原创 獨熱編碼(OneHotEncoder)和標籤編碼(LabelEncoder)

數據分類 我們在構建模型對數據進行訓練之前,需要對數據進行特徵工程,我們的數據可以分爲連續型和離散型。 對於連續型數據,我們一般的做法是對其進行標準化或者歸一化,之前寫過一篇標準化和歸一化的介紹,大家有興趣的可以看一下:https:/

原创 機器學習 特徵選擇(過濾法 封裝法 嵌入法)

特徵選擇 在機器學習工程中,特徵工程纔是最重要,特徵決定着算法的上限,特徵工程中最爲重要和最爲基礎的兩種技術,就是特徵選擇和特徵降維。特徵選擇和特徵降維的目的很簡單,就是選擇出或變換出更優的特徵,從而更利於我們學習算法的學習。 這特徵

原创 機器學習 邏輯迴歸原理詳解

邏輯迴歸 作爲一個傳統算法,可能從名字上來看,邏輯迴歸是一個迴歸算法,但是它卻是一個分類算法,是最基礎的分類算法,當我們做分類算法選擇的時候,先用邏輯迴歸再用複雜的算法,能簡單的先用簡單的,邏輯迴歸的效果往往是最好的。 sigmoid

原创 (Pearson)皮爾遜相關係數和spearman相關係數(附python實現)

今天在做數據分析的時候,發現了需要計算特徵之間的相似度,從而在相似度比較高的特徵之間保留一個就行。查了一下,發現可以通過皮爾遜相關係數和spearman相關係數來計算特徵之間的相似度,下面將介紹這兩個係數和區別。 皮爾遜相關係數 下面

原创 數據特徵 歸一化/標準化 方法

歸一化/標準化 定義 歸一化:就是將訓練集中數值特徵的值縮放到0和1之間。公式如下 標準化:就是將訓練集中數值特徵的值縮放成均值爲0,方差爲1的狀態。公式如下 需要先計算出均值和標準差,下面是標準差的計算公式 μ表示均值,x*表

原创 missingno庫---缺失值可視化分析

缺失值 當我們拿到數據的時候,數據不一定是完整的,有時候一些特徵有缺失值,我們可以通過可視化缺失值來決定我們下一步要進行的操作。 missingno庫 missingno是一個可視化缺失值的庫,方便使用,我們可以用pip instal

原创 機器學習 線性迴歸原理詳解

線性迴歸 線性迴歸是機器學習最基礎的,也是最經典的算法,下面就來介紹這個算法。 假如我們要去銀行貸款,那麼銀行會貸給我們多少錢,我們可以通過特徵來計算出來。 數據:工資和年齡(2個特徵) 目標:預測銀行會貸款給我多少錢 (標籤) 考

原创 機器學習 Adaboost算法原理詳解

Adaboost介紹 Adaboost,是英文Adaptive Boosting(自適應增強)的縮寫,它的自適應在於:前一個基本分類器分錯的樣本會得到加強,加權後的全體樣本再次被用來訓練下一個基本分類器,同時,在每一輪中加入一個新的弱

原创 Linux系統 入門基礎

Linux 介紹 Linux之所以受到廣大計算機愛好者的喜愛,主要原因有兩個,首先它是自由軟件,用戶不用支付費用就可以使用它,並可根據自己的需要對它進行修改。另外,它具有Unix的全部功能,任何使用Unix系統或想要學習Unix系統的

原创 Linux vi編輯器和g++,gcc編譯器

Vi編輯器 vi編輯器是Linux系統下的編輯器,再任何Unix和Linux系統的任何版本,vi編輯器是完全相同的。 vi的基本概念 基本的vi編輯器可以分爲三種狀態,分別是命令狀態,插入狀態和底行模式,各模式功能如下: 命令行模式

原创 XGBoost 模型 參數解釋

上篇博文介紹了xgboost這個算法的推導,下面我們在調包使用這個算法的時候,有一些參數是需要我們理解的。 https://blog.csdn.net/weixin_43172660/article/details/83048394

原创 機器學習 集成算法XGBoost原理及推導

XGBoost介紹 在上一篇構造決策樹的博客中說到,XGBoost是一種通過集成的思想提高模型準確率的算法,這種算法是基於決策樹模型的。不懂的可以看下面地址,包含了決策樹的介紹和構造。 https://blog.csdn.net/we

原创 機器學習 評價指標-召回率(Recall) 精確率(Precision)準確率(Accuracy)ROC曲線和AUC值

召回率(Recall) 精確率(Precision)準確率(Accuracy)ROC曲線和AUC值 是機器學習中常用的評價指標,下面用具體的事例來一一介紹每個指標的具體含義。 假設某個班級有男生80人,女生20人,共100人。目標是找

原创 機器學習 支持向量機(SVM)的理解和推導

支持向量機(support vector machines) 支持向量機是機器學習中的一種很重要的算法,相比於其他算法,支持向量機的優勢在於能夠通過核技術將數據從低緯度映射到高緯度來劃分數據集。原則是使決策邊界最大化。下面一步步推導過