花了一週時間看完了《數學之美》一書,看完之後受益匪淺,覺得有必要把書的內容整理回顧一下。
作者吳軍介紹說本書內容最初起源於他在google的黑板報和博客。如書名所述,數學知識貫穿始終,且與作者的工作背景緊密相關。本書內容大概包括以下幾個方面:數學工具、信息處理相關的一些概念和模型即應用,還介紹了自然語言處理領域的幾位大家。具體回顧一下書中內容:
1、 貫穿全書的思想:多數自然語言處理任務可以類比爲通信模型,即包括信息的編碼、解碼以及除噪的過程。
2、書中用到的重要的數學工具:概率論、線性代數和圖論。
概率是自然語言處理中非常非常重要的數學工具,必須掌握獨立性、聯合概率和條件概率、貝葉斯公式等知識。
線性代數則更多地用於文本處理中,例如特徵抽取。主要體現在矩陣的應用,書中還提及了矩陣的特徵值分解和奇異值分解。用到矩陣時,各個維度的實際意義必須要 弄清楚。
圖論主要爲搜索方面的數學理論(網絡看做圖)。
3、介紹了幾個相關概念
a)信息論:
信息熵 H = -(p1lgp1 + p2logp2 + ... + pnlgpn),表示不確定度。
條件熵 H(X|Y) = -sum(p(x, y)lgp(x|y)),表示在Y已知的條件下,X還有多大的不確定度。
互信息 I(X;Y) = H(X) - H(X|Y),即表示如果Y已知,則對X會了解多少。
b)布爾代數:即二進制的邏輯運算?
c)布隆過濾器:輸入到二進制向量的映射規則。
4、介紹了一些自然語言處理相關的模型
通過天文學發展歷程介紹了數學模型的重要性。
a)基於統計的自然語言模型
p(S) = p(w1w2...wn) = p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...wn-1),其中S表示一個句子,wi表示句中第i個詞。表示了句子S的概率。根據馬爾科夫假設機 器擴展,針對每個條件概率的條件長度,又可以分爲二元模型,三元模型...N元模型(條件部分爲N-1個詞)。
模型的訓練:對條件概率作轉換:p(wi-1|wi) = #(wi,wi-1) / #(wi)。
零概率問題和平滑處理:主要思想是將很小一部分可見情況的概率分給未出現的情況。
b)隱含馬爾科夫模型
要點:狀態集合、初始狀態概率、狀態轉移概率、表現概率。
馬爾科夫假設:各個狀態的概率分佈只與其前一個狀態有關。
三個問題:
已知模型,預測給定序列的概率——可直接通過概率來求解;
已知模型和表現序列,求最大可能的狀態序列——viterbi算法(動態規劃思想);
給定表現序列數據,估計模型參數——EM算法。
c)有限狀態機
特殊的有向圖,指定初始狀態和終止狀態,由輸入決定從一個狀態轉移至下一個狀態或轉換失敗。
改進:基於概率的有限狀態機。
d)餘弦定理
測算文本之間的相似度(利用距離的概念)。cos(A) = <b, c>/(|b||c|)
e)最大熵模型
對隨機事件預測時,提出的模型應符合全部已知的條件,而對未知條件不做假設。
公式:p(d|x1x2...xn) = 1/z * exp(sum(lambdai(xi,d)))
訓練:GIS算法
f)貝葉斯網絡
隱馬模型的擴展。
g)條件隨機場
隱馬模型的擴展。
h)維特比算法
i)期望最大化算法
j)邏輯迴歸模型
5、結合一些應用說明上述模型的應用場合。
a)中文分詞
應用模型:統計自然語言模型。對一個句子S,針對不同的分詞構成的詞序列求概率,選擇概率最大者爲最終結果。
注意:分詞力度與應用場合。可以藉助詞庫解決。
b)搜索引擎
幾個任務及實現思路:
網絡爬蟲:網頁的爬取,根據URL,利用BFS(相對應用的更多)或DFS或兩者結合的方法。
索引:針對每一個關鍵詞,簡歷一個索引表,以表示每一篇文章是否包含了該關鍵詞。可用二進制數表示,搜索時關鍵詞並集的搜索即可用布爾代數實現。
避免重複下載:哈希表記錄已下載的網頁URL。URL的存儲形式則用到了信息指紋。
網頁排名:民主推薦+與搜索目標相關度。
pagerank:根據指向該網頁的鏈接數的多少來給予網頁一個權重;計算方法:迭代。
與查詢的相關度:根據網頁中關鍵詞出現的頻度以及每個關鍵詞的逆文本頻率指數給出權重。(TF-IDF)
反作弊:抓取利用手段提高網頁排名的網站。作者將該過程類比信息除噪,並介紹了兩種方法:利用餘弦相似度找出賣鏈接網站;利用圖中的環(clique)。
c)文本相似度測算
利用餘弦定理。
優化:計算量的減少(省略分母計算)、分子稀疏話、刪除虛詞;根據位置等特徵賦予權重。
d)文本分類
文本可按主題分類,自字詞可按意思歸類
優化方法:矩陣的奇異值分解,分解後自動完成文章和字詞的分類以及文章主題與詞類之間的關係。
e)集合判重、反盜版
信息指紋,利用相同的規則將信息轉換爲數字。
f)公開密鑰的加密解密方法
原理:信息論~
g)拼音輸入法
原理:信息論。。。
h)句法分析
加括號方法;基於CRFs的方法。
i)文本自動分類
最近鄰算法(期望最大化)
6、幾個算法思想
動態規劃、分治
7、介紹了幾位自然語言處理領域的大家
比如 賈里尼克、阿米特。辛格(崇尚簡單方法、馬庫斯(賓州樹庫創建者)