原创 Kaggle入門級賽題:房價預測——數據挖掘篇

特徵工程 我們注意到 MSSubClass 其實是一個 category 的值: all_df['MSSubClass'].dtypes 有: dtype('int64') 它不應該做爲數值型的值進行統計。因此,進行強制類型轉換,把它變回

原创 大話 Git 使用

衆衆衆衆衆所周知,github 是一個好東西。本篇就來說說 Git 的那些指令,網上已經有很多文章,本篇就本不知名小博主在使用過程中用到的一些指令和問題來記錄和說明。如果對你有幫助歡迎點贊收藏,覺得寫的不好請跳至文末。 一個超簡明使用的提

原创 Kaggle入門級賽題:房價預測——數據分析篇

本次分享的項目來自 Kaggle 的經典賽題:房價預測。分爲數據分析和數據挖掘兩部分介紹。本篇爲數據分析篇。 賽題解讀 比賽概述 影響房價的因素有很多,在本題的數據集中有 79 個變量幾乎描述了愛荷華州艾姆斯 (Ames, Iowa) 住

原创 【Leetcode刷題】第 35 題:Search Insert Position 搜索插入位置——解題篇

「 Leetcode刷題 」系列,僅爲刷題過程中對於算法和編程的思考與記錄,如果對你有幫助歡迎點贊收藏。博主也在探索刷題過程中,記錄的一些知識點可能很小白,因此主要是想做一個記錄。文中的不足請多擔待。 刷題順序按專題來做,這部分是關於數組的

原创 【數據結構_浙江大學MOOC】第三四五講 樹

本篇爲關於樹的編程題,給出編譯器 C++(g++)的解答。主要記錄題意理解和代碼學習過程。 1 樹的同構 題目 給定兩棵樹T1和T2。如果T1可以通過若干次左右孩子互換就變成T2,則我們稱兩棵樹是“同構”的。例如圖1給出的兩棵樹就是同構的

原创 【數據結構】第二講 線性結構

函數題給出編譯器爲 C(gcc) 的解答,編程題給出編譯器 C++(g++) 或 Python(python3) 的解答。 函數題 兩個有序鏈表序列的合併 題目 函數接口定義: List Merge( List L1, List L2 )

原创 python 虛擬環境搭建

寫這篇的原因是在使用 python 的過程中,陸續安裝了 python2.7、python3.6、python3.7 的版本,區分 python2 和 python3 還好,而更新到 python3.7 後,每次安裝使用命令pip3 ins

原创 【數據科學系統學習】機器學習算法 # 西瓜書學習記錄 [12] 集成學習實踐

本篇內容爲《機器學習實戰》第 7 章利用 AdaBoost 元算法提高分類性能程序清單。所用代碼爲 python3。 AdaBoost優點:泛化錯誤率低,易編碼,可以應用在大部分分類器上,無參數調整。缺點:對離羣點敏感。適用數據類型:數值

原创 【數據科學系統學習】機器學習算法 # 西瓜書學習記錄 [11] 集成學習

本篇內容爲西瓜書第 8 章集成學習 8.1 8.2 8.3 8.4 8.5 的內容: 8.1 個體與集成 8.2 Boosting 8.3 Bagging與隨機森林 8.4 結合策略 8.5 多樣性 如移動端無法正常顯示文中的公式,右上

原创 【數據科學系統學習】機器學習算法 # 西瓜書學習記錄 [7] 支持向量機(一)

這兩篇內容爲西瓜書第 6 章支持向量機 6.1,6.2,6.4,6.3 的內容: 6.1 間隔與支持向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函數 由於本章內容較多,分爲兩篇來敘述。本篇所包含內容爲間隔與支持向量和對

原创 【數據科學系統學習】機器學習算法 # 西瓜書學習記錄 [8] 支持向量機(二)

這兩篇內容爲西瓜書第 6 章支持向量機 6.1,6.2,6.4,6.3 的內容: 6.1 間隔與支持向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函數 由於本章內容較多,分爲兩篇來敘述。本篇所包含內容爲軟間隔與正則化和核

原创 【數據科學系統學習】機器學習算法 # 西瓜書學習記錄 [9] 決策樹

本篇內容爲西瓜書第 4 章決策樹 4.1,4.2,4.3 的內容: 4.1 基本流程 4.2 劃分選擇 4.3 剪枝處理 如移動端無法正常顯示文中的公式,右上角跳至網頁即可正常閱讀。 決策樹 (decision tree) 是一種基本

原创 Kaggle入門級賽題:泰坦尼克號生還者預測——數據挖掘篇

本次分享的項目來自 Kaggle 的經典賽題:泰坦尼克號生還者預測。分爲數據分析和數據挖掘兩部分介紹。上一篇爲數據分析篇,本篇爲數據挖掘篇。 數據挖掘 本篇的內容有以下幾部分: 對一些異常和缺失數據進行清洗。 進行特徵的轉換,比如定類的

原创 【數據科學系統學習】數據科學在做什麼 # 專題概述

博主在一開始學習數據科學時,沒有人帶路,沒有一條直接的路徑。因此各種信息都接收,一開始比較混亂,後來接觸的多了,漸漸開始瞭解到關於數據科學無非分爲數學中的統計學、計算機中的 python 和機器學習算法、項目中對業務的理解三大塊。在學習方法

原创 【數據科學系統學習】數據科學在做什麼 # 描述性統計分析

博主在一開始學習數據科學時,沒有人帶路,沒有一條直接的路徑。因此各種信息都接收,一開始比較混亂,後來接觸的多了,漸漸開始瞭解到關於數據科學無非分爲數學中的統計學、計算機中的 python 和機器學習算法、項目中對業務的理解三大塊。在學習方法