原创 任務2 TF-IDF理論與實踐

理論 1.什麼是TF-IDF? TF-IDF(term frequency–inverse document frequency)是一種用於信息檢索與數據挖掘的常用加權技術,常用於挖掘文章中的關鍵詞,而且算法簡單高效,常被工業用於最開

原创 任務1-數據初始

首先明確任務: 建立模型通過長文本數據正文(article),預測文本對應的類別(class) 確定好任務之後我們先對數據進行讀取,DataFrames的head()方法,看看數據的前五行是如何的 import sys assert

原创 決策樹算法梳理

文章目錄一. 信息論基礎(熵 聯合熵 條件熵 信息增益 基尼不純度)信息熵聯合熵條件熵信息增益基尼不純度二.決策樹的不同分類算法(ID3算法、C4.5、CART分類樹)的原理及應用場景ID3算法C4.5算法CART算法適用情景三.迴歸

原创 線性迴歸算法梳理

文章目錄一. 機器學習:二.線性迴歸的原理三.線性迴歸損失函數、代價函數、目標函數四優化方法:五 線性迴歸的評估指標:六 sklearn參數詳解: 我想從一個鏈進行講述: 一. 機器學習: 因爲我們是把我們人類的“經驗”以數據的形式來

原创 邏輯迴歸算法梳理

文章目錄一. 邏輯迴歸原理二. 邏輯迴歸損失函數推導及優化三. 正則化與函數評估指標1.正則化2.分類評估指標:四. 邏輯迴歸的優缺點五 樣本不均衡問題解決辦法六 sklearn參數七 邏輯迴歸與線性迴歸的聯繫與區別 一. 邏輯迴歸原

原创 20 Transfer Learning

本身的數據比較少,但是我們卻有其他的數據。例如我們做個貓狗識別器,我們會有下面的數據,這些數據沒有和任務直接相關。例如共同的領域,但是是不同的任務目標,例如左下的實體的大象和老虎。又例如不同的領域,但是是相同的任務目標,右下的虛體的

原创 Unsupervised Learning - Deep Generative Model (Part II)

爲什麼會使用auto-encoder?一個直觀的理由是,當訓練模型的,當一個滿月的圖片輸入到auto-encoder模型,我們會希望得到一個滿月。同理,當是一個半滿月的時候,我們希望得到一個半滿月的。不過當直接模型預測的時候,月亮介

原创 17 Unsupervised Learning: Deep Auto-encder

我們是說把訓練一個NN Encoder(neural network)來把輸入轉換到code,這個code代表了那個輸入的物體。可是如果沒有對應label,是很難train的。但是如果我們新加一個NN Decoder,把對應的cod

原创 Unsupervised Learning - Deep Generative Model (Part I)

這個圖片先說了這一個博客,是一個科普文,這個可以很好的介紹Generative Models。 我們目前做的是讓機器識別出哪些是貓還是狗,但是機器可能不知道這個貓是什麼。所以未來我們想讓計算機畫出東西來,例如畫出一隻貓 Genr

原创 0-1揹包問題實現(python)和Palindrome Partitioning II的完成

01揹包問題 一. 問題描述 有n 個物品,它們有各自的重量和價值,現有給定容量的揹包,如何讓揹包裏裝入的物品具有最大的價值總和?(人話就是:一個小偷去商店偷東西,但是由於帶來的袋子不夠大,裝不完所有的東西,那就怎麼可以偷到又多又值錢

原创 遞歸算法實戰

17 思路很簡單: 1.就是先判斷是否爲零輸入,如果是就返回空列表。 2.然後寫好對應的數字對應的字符串。 3.我們先把第一個數字的每一個字母進行保存成一個列表。然後將這個字母表和第二個數字的每一個字母進行各個匹配成一個新的列表。然後

原创 遞歸思想和動態規劃思想

遞歸: 1.介紹 遞歸算法是一種直接或者間接調用自身函數或者方法的算法。其中調用分爲直接調用和間接調用,直接調用是指在函數體中調用自身,間接調用是調用別的函數,而這些函數調用函數本身。這樣可以把很長的冗餘的代碼進行了簡化。 遞歸算法解

原创 二叉樹的遍歷

二叉樹是一種非常重要的數據結構,很多數據結構是以根據二叉樹來進行演化的。現在我們先介紹二叉樹的遍歷,有深度遍歷和廣度遍歷(也就是平常說的層次遍歷),深度遍歷有前序、中序以及後序三種遍歷方法。因爲數的定義本身就是遞歸定義,因此採用遞歸的

原创 隊列、堆思想

隊列 定義 隊列(queue)是一種採用先進先出的數據結構。顧名思義就是想排隊那樣,一個輪着一個。例如去遊樂園玩的實話,先排隊的可以是先玩,後面的後玩。 ​​​​​​​​​​​​​​​​​​​​​​​​ 隊列有着數組和鏈表兩個方式來

原创 數組(哈希表)

哈希思想:我們定義好一個哈希函數,然後把一些數據對應的key輸入到哈希函數會得到一個index,key可以自己設置。創建一個哈希表,來保存好index和這個index對應到的數據。可能不同的數據卻生成了一樣的index,這時候就會面臨衝突