原创 再論數據科學競賽中的Data Leakage

越來越多的數據愛好者把注意力放在了數據競賽上,像Kaggle數據競賽。這類數據競賽中,有時會遇到Data Leakage。而大部分人對Data Leakage的概念理解都是錯誤的。這次,我們來梳理一下Data Leakage,希望能讓大

原创 Cross Entropy

對於分類問題,NN的損失函數一般會用 Cross Entropy 它的解釋爲: 如果我們的數據有 {1,2,...,C}{1,2,...,C} 這麼多類別。 那麼對於一條數據 xx ,我們分類正確 yy 的最大似然概率爲: p(y|

原创 DRMM model

Paper 的引用: Guo J, Fan Y, Ai Q, et al. A deep relevance matching model for ad-hoc retrieval[C]//Proceedings of the 25th

原创 【機器學習筆記】Locally Weighted Regression (Loess)

非參數學習算法 參數數量隨着訓練集大小增長 Locally Weighted Regression(Loess) 簡單來說就是事先不用確定參數數量(模型), 每次預測的時候,用指定的樣本點周圍的樣本點進行臨時訓練,確定參數; like

原创 word2vec中的Negative sampling 和 Subsampling

神經概率語言模型 通過一個Fake task去得到詞向量 這個fake task 更像是用作一個word 的前 n−1n−1 個詞的詞向量去做特徵,來預測這個word出現的概率。 而中間的U就是所有詞向量的矩陣。 但是,問題在於,訓

原创 【論文筆記】Embedding of Embedding (EOE) : Joint Embedding for Coupled Heterogeneous Networks

一種network embedding 的思路 網絡結點向量化 這種向量化可以表示出不同網絡之間的連邊(通過引入一個矩陣(harmonious embedding matrix)) Future work: 1. 多個網絡的損失函數更

原创 Latent Semantic Analysis 筆記

傳統向量空間模型的缺陷 向量空間模型是信息檢索中最常用的檢索方法,其檢索過程是,將文檔集D中的所有文檔和查詢都表示成以單詞爲特徵的向量,特徵值爲每個單詞的TF-IDF值,然後使用向量空間模型(亦即計算查詢q的向量和每個文檔di的向量之間

原创 【機器學習筆記】伯努利分佈和高斯分佈

涉及到的兩個概念就是 : 廣義線性模型(Generalized Linear Models) 和 指數分佈族 (The exponential family) 有一個這樣神奇的式子: p(y;η)=b(y)eηTT(y)−a(η) 來

原创 【論文筆記】Learning to log

paper鏈接:http://www.academia.edu/download/36281506/jmzhu_icse2015.pdf Abstract 作者先進行了背景介紹, 在這篇paper裏提出了一個 learning to l