台部落TangowL

理論解釋共線性，指多元迴歸模型中，各自變量之中至少有兩個完全或高度相關。一方面，自變量之間的強相關，雖不會影響對應迴歸係數的大小，但會擴大其迴歸係數的方差。由於迴歸係數比上標準差，即檢驗該回歸係數是否顯著的 t 值。由於 t

2020-02-23 22:23:09

中文的文本糾錯，應用場景很多，諸如輸入法糾錯、輸入預測、ASR 後糾錯等等。這邊簡單梳理下對於這個任務的調研結果。綜述中很多內容參考了 hqc888688 的這篇博客，非常感謝。 1. 問題分析 1.1 definition

2020-02-23 22:22:58

自己整理的知識地圖，有興趣的可以看看

2020-02-23 22:22:58

Tensorflow-hub 是 google 提供的機器學習模組打包函式庫，幫開發者把TensorFlow的訓練模型發佈成模組，方便再次使用或是與社交共享。打包用來發布機器學習中可重複使用的部分，包括TensorFlow_G

2020-02-23 22:22:58

這裏的排序算法指內部排序算法，即對內存中的數據進行排序。 1 概述排序算法大體可分爲兩種：比較排序時間複雜度 O(nlogn) ~ O(n^2)，主要有：冒泡排序，選擇排序，插入排序，歸併排序，堆排序，快速排序等。非比

2020-02-23 22:22:58

3、隱語義模型 LFM核心思想在於通過隱含的特徵聯繫用戶興趣和物品，即基於用戶行爲的統計數據來自動聚類，發現物品中隱含的類別，從而用於推薦。 3.1 基礎算法（1）假設物品中隱含的類別（隱特徵）有個，參數用來表徵用戶u的興趣和

2020-02-23 22:22:58

基本分類算法，各有優缺，將不同分類器組合使用的方法叫做集成方法或者元算法。集成形式多樣，可以是不同算法集成、也可以是同一算法在不同設置下的集成，還可以是數據集不同部分分配給不同分類器之後的集成。我們下面提到的兩類集成方法應用於第二種情況：

2020-02-23 22:22:58

1、基本思想前面講到的Logistic Regression在擬合過程，實際上關注所有樣本點的貢獻，即尋找這麼一個超平面，使得正例的特徵遠大於0，負例的特徵遠小於0，強調在全部訓練數據上達到這一目標。而在SVM中實際也是在擬合這麼一個

2020-02-23 22:22:58

自己整理的知識地圖，有興趣的可以看看

2020-02-23 22:22:58

不少內容在讀 paper 時，已經深入瞭解過，這裏就簡單帶過了，感興趣的建議精讀原書和參考文獻吧。很多 NLP 任務設計結構化輸出，即輸出並非類標籤或者類標籤的概率，而是諸如序列、樹、圖等結構化的對象。經典任務有序列標註（pos

2020-02-23 22:22:58

前面介紹的機器學習算法均爲監督學習方法，即“對於輸入數據X能預測變量Y”，下面學習幾個非監督學習算法，即回答“從數據X中能發現什麼”問題，這裏需要回答的X方面的問題可能是“構成X的最佳5個數據簇有哪些”或者“X中哪三個特徵最頻繁地一起出現

2020-02-23 22:22:58

1、基本線性迴歸 LR 基本線性迴歸，最小化誤差的平方和，即求的是具有最小均方誤差的無偏誤差，從而解得迴歸係數。計算預測值序列和真實值的匹配程度，可以計算兩個序列的相關係數，corrcoef(yHat.T, yMat)。 fr

2020-02-23 22:22:58

在閱讀學習《機器學習實戰》過程中，筆者發現書中程序在執行時往往存在問題，但官方的勘誤表並沒有記述這些問題，筆者認爲這應該屬於錯誤，故做此總結，作爲自己的勘誤表使用。 ## P41 程序清單3-4，語句 del(labels(best

2020-02-23 22:22:58

爲了讓推薦結果符合用戶口味，我們需要深入瞭解用戶。用戶的行爲不是隨機的，而是蘊含着許多模式的。基於用戶行爲分析的推薦算法是個性化推薦系統的重要算法，僅僅基於用戶行爲數據設計的推薦算法學術上稱作“協同過濾算法”。協同過濾，就是指用戶可以齊

2020-02-23 22:22:58

NLP 中，文本匹配技術，不像 MT、MRC、QA 等屬於 end-to-end 型任務，通常以文本相似度計算、文本相關性計算的形式，在某應用系統中起核心支撐作用，比如搜索引擎、智能問答、知識檢索、信息流推薦等。本篇將縱覽文本匹配的技

2019-01-13 18:24:47