原创 概率語言模型及其變形系列(5)-LDA Gibbs Sampling 的JAVA實現

本系列博文介紹常見概率語言模型及其變形模型,主要總結PLSA、LDA及LDA的變形模型及參數Inference方法。初步計劃內容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA變形模型-Twitter

原创 SIGIR 2016 Improving Language Estimation with the Paragraph Vector Model for Ad-hoc Retrieval

中文簡介:本文對如何基於Paragraph Vector model改進Ad-hoc Retrieval task進行了分析,主要針對IR的場景提出了對PV model的三方面的改進。實驗表明,改進後的模型

原创 文本語言模型的參數估計-最大似然估計、MAP及貝葉斯估計

以PLSA和LDA爲代表的文本語言模型是當今統計自然語言處理研究的熱點問題。這類語言模型一般都是對文本的生成過程提出自己的概率圖模型,然後利用觀察到的語料數據對模型參數做估計。有了語言模型和相應的模型參數,我們可以有很多重要的應用,比如文

原创 CIKM 2013 Paper Modeling interaction features for debate side clustering

中文簡介:本文對如何對網上論壇討論中用戶交互關係進行統計建模分析進行了研究。論文出處:CIKM‘13.英文摘要: Online discussion forums are popular social media platforms fo

原创 SIGIR 2017 Paper Characterizing and Predicting Enterprise Email Reply Behavior

中文簡介:本文對企業郵件系統中的用戶行爲進行了建模分析,首先分析了影響用戶郵件回覆行爲的幾類因素,然後基於分析結果建立了預測用戶郵件回覆行爲和郵件回覆時間的機器學習模型。基於Avocado郵件數據的實驗結果

原创 深度文本匹配開源工具(MatchZoo)

博主導言:苦於Deep Learning的baseline太多實現困難?苦於沒有好的基於深度學習處理NLP, IR, QA任務的開源工具?苦於沒有發佈自己研究的深度文本匹配模型的交流平臺?強烈推薦MatchZoo,用深度學習做自然語言處理

原创 概率語言模型及其變形系列(2)-LDA及Gibbs Sampling

本系列博文介紹常見概率語言模型及其變形模型,主要總結PLSA、LDA及LDA的變形模型及參數Inference方法。初步計劃內容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA變形模型-Twitter

原创 LeetCode Unique Binary Search Trees

Given n, how many structurally unique BST's (binary search trees) that store values 1...n?For example,Given n = 3, ther

原创 ICDM 2014 Paper ShellMiner Mining Organizational Phrases in Argumentative Texts in Social Media

中文簡介: 本文提出了概率生成模型 Shell Topic Model (STM)對社交論壇文本中的組織性短語(Organizational Phrases)和主題詞(topical contents)進行建模分析,主要的應用有組織性短語

原创 Gradient Tree Boosting (GBM, GBRT, GBDT, MART)算法解析和基於XGBoost/Scikit-learn的實現

1. 概要Gradient Tree Boosting (別名 GBM, GBRT, GBDT, MART)是一類很常用的集成學習算法,在KDD Cup, Kaggle組織的很多數據挖掘競賽中多次表現出在分類和迴歸任務上面最好的perfo

原创 ICTIR 2016 Analysis of the Paragraph Vector Model for Information Retrieval

中文簡介:本文是對前面的SIGIR‘16工作的拓展, 主要是對PV model適用於IR的task時的三方面的問題進行了更加深入的分析,並且提出了針對這三個問題的相應改進。論文出處:ICTIR' 16英文摘要:Previous studi

原创 ECIR 2016 Paper Modelling User Interest for Zero-query Ranking

中文簡介:本文對智能個人助理(如Google Now,Microsoft Cortana)中的信息卡片排序進行了研究,從user modeling的角度提出了三組排序特徵:implicit feedback features, entit

原创 CIKM 2016 aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model

中文簡介:本文針對當前深度學習模型包括基於CNN或者LSTM的模型適用於Answer Sentence Selection這個task時必須額外combine 傳統的text matching feature的問題,提出了一個attent

原创 LeetCode Find Minimum in Rotated Sorted Array II

Follow up for "Find Minimum in Rotated Sorted Array":What if duplicates are allowed?Would this affect the run-time comp

原创 ECIR 2016 Paper Beyond Factoid QA: Effective Methods for Non-factoid Answer Sentence Retrieval

中文簡介:本文對non-factoid 問題的答案句子檢索進行了研究,基於learning to ranking的框架,在傳統文本匹配特徵的基礎上提出了給予語義匹配和上下文信息的特徵,並且證明了這些特徵對於答案句子檢索的有效性。本文使用T