原创 邏輯斯蒂迴歸中特徵共線性或強相關的影響

理論解釋 共線性,指多元迴歸模型中,各自變量之中至少有兩個完全或高度相關。 一方面,自變量之間的強相關,雖不會影響對應迴歸係數的大小,但會擴大其迴歸係數的方差。由於迴歸係數比上標準差,即檢驗該回歸係數是否顯著的 t 值。由於 t

原创 中文(語音結果)的文本糾錯綜述 Chinese Spelling Check

中文的文本糾錯,應用場景很多,諸如輸入法糾錯、輸入預測、ASR 後糾錯等等。這邊簡單梳理下對於這個任務的調研結果。 綜述中很多內容參考了 hqc888688 的這篇博客,非常感謝。 1. 問題分析 1.1 definition

原创 機器學習知識地圖 —— 監督學習(迴歸)

自己整理的知識地圖,有興趣的可以看看

原创 TensorFlow-Hub 安裝及使用

Tensorflow-hub 是 google 提供的機器學習模組打包函式庫,幫開發者把TensorFlow的訓練模型發佈成模組,方便再次使用或是與社交共享。 打包用來發布機器學習中可重複使用的部分,包括TensorFlow_G

原创 排序算法的原理、實現、優缺點

這裏的排序算法指內部排序算法,即對內存中的數據進行排序。 1 概述 排序算法大體可分爲兩種: 比較排序 時間複雜度 O(nlogn) ~ O(n^2),主要有:冒泡排序,選擇排序,插入排序,歸併排序,堆排序,快速排序等。 非比

原创 推薦系統(三) —— 利用用戶行爲數據 —— 隱語義模型

3、隱語義模型 LFM核心思想在於通過隱含的特徵聯繫用戶興趣和物品,即基於用戶行爲的統計數據來自動聚類,發現物品中隱含的類別,從而用於推薦。 3.1 基礎算法 (1) 假設物品中隱含的類別(隱特徵)有個,參數用來表徵用戶u的興趣和

原创 提升算法 AdaBoost元算法 提升樹算法 in Python

基本分類算法,各有優缺,將不同分類器組合使用的方法叫做集成方法或者元算法。集成形式多樣,可以是不同算法集成、也可以是同一算法在不同設置下的集成,還可以是數據集不同部分分配給不同分類器之後的集成。我們下面提到的兩類集成方法應用於第二種情況:

原创 支持向量機 SVM 算法推導優缺點 代碼實現 in Python

1、基本思想 前面講到的Logistic Regression在擬合過程,實際上關注所有樣本點的貢獻,即尋找這麼一個超平面,使得正例的特徵遠大於0,負例的特徵遠小於0,強調在全部訓練數據上達到這一目標。而在SVM中實際也是在擬合這麼一個

原创 機器學習知識地圖 —— 概述

自己整理的知識地圖,有興趣的可以看看

原创 神經網絡 和 NLP —— 結構化輸出預測

不少內容在讀 paper 時,已經深入瞭解過,這裏就簡單帶過了,感興趣的建議精讀原書和參考文獻吧。 很多 NLP 任務設計結構化輸出,即輸出並非類標籤或者類標籤的概率,而是諸如序列、樹、圖等結構化的對象。經典任務有序列標註(pos

原创 關聯分析的Apriori算法 in Python

前面介紹的機器學習算法均爲監督學習方法,即“對於輸入數據X能預測變量Y”,下面學習幾個非監督學習算法,即回答“從數據X中能發現什麼”問題,這裏需要回答的X方面的問題可能是“構成X的最佳5個數據簇有哪些”或者“X中哪三個特徵最頻繁地一起出現

原创 基本線性迴歸、局部加權線性迴歸和縮減方法(嶺迴歸、前向逐步迴歸) in Python

1、基本線性迴歸 LR 基本線性迴歸,最小化誤差的平方和,即求的是具有最小均方誤差的無偏誤差,從而解得迴歸係數。 計算預測值序列和真實值的匹配程度,可以計算兩個序列的相關係數,corrcoef(yHat.T, yMat)。 fr

原创 《機器學習實戰》 自制勘誤表 中文版第一版2015年9月第11次印刷版

在閱讀學習《機器學習實戰》過程中,筆者發現書中程序在執行時往往存在問題,但官方的勘誤表並沒有記述這些問題,筆者認爲這應該屬於錯誤,故做此總結,作爲自己的勘誤表使用。 ## P41 程序清單3-4,語句 del(labels(best

原创 推薦系統(二) —— 利用用戶行爲數據 —— 基於領域的算法

爲了讓推薦結果符合用戶口味,我們需要深入瞭解用戶。用戶的行爲不是隨機的,而是蘊含着許多模式的。基於用戶行爲分析的推薦算法是個性化推薦系統的重要算法,僅僅基於用戶行爲數據設計的推薦算法學術上稱作“協同過濾算法”。協同過濾,就是指用戶可以齊

原创 文本匹配(語義相似度/行爲相關性)技術綜述

NLP 中,文本匹配技術,不像 MT、MRC、QA 等屬於 end-to-end 型任務,通常以文本相似度計算、文本相關性計算的形式,在某應用系統中起核心支撐作用,比如搜索引擎、智能問答、知識檢索、信息流推薦等。本篇將縱覽文本匹配的技