台部落Preke

越來越多的數據愛好者把注意力放在了數據競賽上，像Kaggle數據競賽。這類數據競賽中，有時會遇到Data Leakage。而大部分人對Data Leakage的概念理解都是錯誤的。這次，我們來梳理一下Data Leakage，希望能讓大

2018-09-03 17:32:01

對於分類問題，NN的損失函數一般會用 Cross Entropy 它的解釋爲：如果我們的數據有 {1,2,...,C}{1,2,...,C} 這麼多類別。那麼對於一條數據 xx ，我們分類正確 yy 的最大似然概率爲： p(y|

2018-09-03 17:32:01

Paper 的引用： Guo J, Fan Y, Ai Q, et al. A deep relevance matching model for ad-hoc retrieval[C]//Proceedings of the 25th

2018-09-03 17:32:01

非參數學習算法參數數量隨着訓練集大小增長 Locally Weighted Regression(Loess) 簡單來說就是事先不用確定參數數量（模型），每次預測的時候，用指定的樣本點周圍的樣本點進行臨時訓練，確定參數； like

2018-09-03 17:32:00

神經概率語言模型通過一個Fake task去得到詞向量這個fake task 更像是用作一個word 的前 n−1n−1 個詞的詞向量去做特徵，來預測這個word出現的概率。而中間的U就是所有詞向量的矩陣。但是，問題在於，訓

2018-09-03 17:32:00

一種network embedding 的思路網絡結點向量化這種向量化可以表示出不同網絡之間的連邊（通過引入一個矩陣（harmonious embedding matrix）） Future work： 1. 多個網絡的損失函數更

2018-09-03 17:32:00

傳統向量空間模型的缺陷向量空間模型是信息檢索中最常用的檢索方法，其檢索過程是，將文檔集D中的所有文檔和查詢都表示成以單詞爲特徵的向量，特徵值爲每個單詞的TF-IDF值，然後使用向量空間模型(亦即計算查詢q的向量和每個文檔di的向量之間

2018-09-03 17:32:00

涉及到的兩個概念就是：廣義線性模型（Generalized Linear Models）和指數分佈族（The exponential family）有一個這樣神奇的式子： p(y;η)=b(y)eηTT(y)−a(η) 來

2018-09-03 17:32:00

paper鏈接：http://www.academia.edu/download/36281506/jmzhu_icse2015.pdf Abstract 作者先進行了背景介紹，在這篇paper裏提出了一個 learning to l

2018-09-03 17:31:56