信息檢索和網絡數據領域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的論文中常用的模型和技術總結
引子:對於這個領域的博士生來說,看懂論文是入行了解大家在做什麼的研究基礎,通常我們會去看一本書。看一本書固然是好,但是有一個很大的缺點:一本書本身自成體系,所以包含太多東西,很多內容看了,但是實際上卻用不到。這雖然不能說是一種浪費,但是卻沒有把有限力氣花在刀口上。
我所處的領域是關於網絡數據的處理(國際會議WWW, SIGIR, CIKM, WSDM, ACL, EMNLP,等)
我列了一個我自己認爲的在我們這個領域常常遇到的模型或者技術的列表,希望對大家節省時間有所幫助:1. 概率論初步
主要常用到如下概念:初等概率定義的三個條件,全概率公式,貝葉斯公式,鏈式法則,常用概率分佈(Dirichlet 分佈,高斯分佈,多項式分佈,玻鬆分佈m)
雖然概率論的內容很多,但是在實際中用到的其實主要就是上述的幾個概念。基於測度論的高等概率論,幾大會議(www,sigir等等)中出現的論文中基本都不會出現。
2. 信息論基礎
主要常用的概念:熵,條件熵,KL散度,以及這三者之間的關係,最大熵原理,信息增益(information gain)
3. 分類
樸素貝葉斯,KNN,支持向量機,最大熵模型,決策樹的基本原理,以及優缺點,知道常用的軟件包
4. 聚類
非層次聚類的K-means算法,層次聚類的類型及其區別,以及算距離的方法(如single,complete的區別a),知道常用的軟件包
5. EM算法
理解不完全數據的推斷的困難,理解EM原理和推理過程
6. 蒙特卡洛算法(特別是Gibbs採樣算法o)
7. 圖模型
圖模型最近幾年非常的熱,也非常重要,因爲它能把之前的很多研究都包括在內,同時具有直觀之意義。如CRF, HMM,topic model都是圖模型的應用和特例。
a. 瞭解圖模型的一般表示(有向圖和無向圖模型x),通用的學習算法(learning)和推斷算法(inference),如Sum-product算法,傳播算法等
b. 熟悉HMM模型,包括它的假設條件,以及前向和後向算法;
c. 熟悉LDA模型,包括它的圖模型表示i,以及它的Gibbs 推理算法;變分推斷算法不要求掌握。
d. 瞭解CRF模型,主要是瞭解它的圖模型表示,如果有時間和興趣a,可以瞭解推理算法;
e. 理解HMM,LDA, CRF和圖模型的一般表示,通用學習算法和推理算法之間的聯繫和差別;
f. 瞭解Markov logic network(MLN),這是建構在圖模型和一階邏輯基礎上的一種語言,可以用來描述很多現實問題,初步的瞭解,可以幫助理解圖模型;
8. topic model
這個模型的思想被廣泛地應用,全看完沒有必有也沒有時間,推薦如下:
a. 深入理解pLSA和LDA,同時理解pLSA和LDA之間的聯繫和區別;這兩個模型理解後,大部分的topic model的論文都是可以理解的了,特別是應用到NLP上的topic
model。同時,也可以自己設計自己需要的非層次topic model了。
b. 如果想繼續深入,繼續理解hLDA模型,特別是理解背後的數學原理Dirichlet Process,這樣你就可以自己設計層次topic model了;
c. 對於有監督的topic model,一定要理解s-LDA和LLDA兩個模型,這兩個模型體現了完全不同的設計思想,可以細細體會,然後自己設計自己需要的topic model;
d. 對於這些模型的理解,Gibbs 採樣算法是繞不開的坎;
9. 最優化和隨機過程
a. 理解約束條件是等號的最優化問題及其lagrange乘子法求解;
b. 理解約束條件是不等號的凸優化問題,理解單純形法;
c. 理解梯度下降法,模擬退火算法;
d. 理解爬山法等最優化求解的思想
e. 隨機過程需要了解隨機遊走,排隊論等基本隨機過程(論文中偶爾會有,但不是太常見n),理解Markov 隨機過程(非常重要,採樣理論中常用l);
10. 貝葉斯學習
目前越來越多的方法或模型採用貝葉斯學派的思想來處理數據,因此瞭解相關的內容非常必要。
a. 理解貝葉斯學派和統計學派的在思想和原理上的差別和聯繫;
b. 理解損失函數,及其在貝葉斯學習中的作用;記住常用的損失函數;
c. 理解貝葉斯先驗的概念和四種常用的選取貝葉斯先驗的方法;
d. 理解參數和超參數的概念,以及區別;
e. 通過LDA的先驗選取(或者其它模型i)來理解貝葉斯數據處理的思想;
11. 信息檢索模型和工具
a. 理解常用的檢索模型;
b. 瞭解常用的開源工具(lemur,lucene等ng)
a. 理解常用的特徵選擇方法,從而選擇有效特徵來訓練模型;
技巧是很多的,這裏略。
建議每當有同學的論文有評審意見之後,認真琢磨,對於提高寫作能力很有幫助。
上述的模型和算法,也許學過之後但是記不住,個人意見:沒有關係,再次看的時候就很快了。