【讀書筆記】數學之美（上）

原創

LogM

2019-08-14 18:56

作者：LogM

本文原載於 https://segmentfault.com/u/logm/articles，不允許轉載~

文章中的數學公式若無法正確顯示，請參見：正確顯示數學公式的小技巧

本文爲《數學之美》的讀書筆記。

第1章文字和語言 vs 數字和信息

通信的原理：（信息傳播模型）

信息 --（編碼）-> 編碼後的信息 --（解碼）-> 信息
文字的演化
數字的演化

第2章自然語言處理從規則到統計

圖靈測試：判斷機器是否智能
人工智能概念的提出：1956年，達特茅斯夏季人工智能研究會議
20世紀60年代，大家認爲自然語言處理需要機器理解人的語言，研究重點在句法分析和語義分析，大多用人工規則。但自然語言中的規則實在太多了。

"The pen is in the box.", "The box is in the pen."
1970年，IBM華生實驗室使用統計的方法將語音識別提高非常多。自然語言處理分成了規則和統計兩個派別。到90年代，基於統計的方法成爲主流。這一轉變與語料和計算力增加有關。

第3章統計語言模型

判斷一個句子是否合理：
$$P(S) = P(w_1, w_2, ... , w_n) = P(w_1) \cdot P(w_2|w_1) \cdot \cdot \cdot P(w_n|w_1, w_2, ..., w_n)$$
馬爾科夫假設：一個詞出現的概率只與前n個詞有關，實際使用時，受計算速度限制，一般使用二元模型或者三元模型。比如二元模型可以寫做：
$$P(S) = P(w_1) \cdot P(w_2|w_1) \cdot P(w_3|w_2) \cdot \cdot \cdot P(w_n|w_{n-1})$$
統計語言模型的平滑問題：
- 古德-圖靈估計：假定語料中出現 $r$ 次的詞有 $N_r$ 個，語料總大小爲 $N$，則 $N = \sum{rN_r}$。當 $r$ 比較小時，統計可能不可靠，我們用 $dr$ 代替 $r$，$d_r = (r+1) \cdot N_{r+1} / N_r$，此時仍有 $N = \sum{d_r \cdot N_r}$。
  
  根據 Zipf 定律，$N_{r+1} < N_r$，故 $d_r < r$，$d_0 > 0$。
- 卡茨退避法：將古德-圖靈估計應用在統計語言模型的平滑。
- 刪除差值法：（低階模型不容易發生零概率問題，用低階來平滑高階）

$$P(w_i|w_{i-2}, w_{i-1}) = \lambda(w_{i-2}, w_{i-1}) \cdot f(w_i|w_{i-2}, w_{i-1}) + \lambda(w_{i-1}) \cdot f(w_i)|w_{i-1} + \lambda \cdot f(w_i)$$

第4章談談分詞

演變過程
- 查字典，最長匹配
  
  "上海大學城書店" -> "上海大學城書店"
- 查字典，最少詞數
- 統計語言模型：判斷哪種分詞法出現的概率最大，使用 Viterbi 算法加速。
分詞可以是粗粒度，也可以細粒度，一般對複合詞使用嵌套結構

"北京大學", "北京大學"

第5章隱含馬爾科夫模型

用途：機器翻譯、拼寫糾錯、手寫體識別、圖像處理、序列分析、股票分析...
通信模型。舉例，英文翻譯爲中文的問題：S爲中文，O爲英文。
$$P(s_1, s_2, ...| o_1, o_2, ...) = \frac{P(o_1, o_2, ...| s_1, s_2, ...) \cdot P(s_1, s_2, ...)}{P(o_1, o_2, ...)}$$
馬爾科夫過程（馬爾科夫鏈）：符合狀態 $s_t$ 只與上一狀態 $s_{t-1}$ 有關的假設的隨機過程。
隱馬爾科夫模型：$s_t$ 是一個馬爾科夫過程，$o_t$ 與 $s_t$ 相關且僅與 $s_t$ 相關。
$$P(s_1,s_2,...,o_1,o_2,...) = \prod{P(s_t|s_{t-1}) \cdot P(o_t|s_t)}$$
隱馬爾科夫模型的三個基本問題：
- 給定一個模型，如何計算某個特定輸出序列的概率：前向計算，簡單
- 給定一個模型和某個特定的輸出序列，如何找到最可能的狀態序列：Viterbi 算法
- 給定足夠量的觀測數據，如何估計模型參數：轉移概率 $P(s_t|s_{t-1})$，生成概率 $P(o_t|s_t)$
  - 如果有大量已標註的 $o_t$ 和對應的 $s_t$，簡單
  - 如果只有觀測到的 $o_1, o_2, ...$，鮑姆-韋爾奇算法（EM算法）

第6章信息的度量和作用

信息熵：

有32個球隊參加比賽，奪冠可能性相等，我每猜一次花費1元，對方回答"對，小了，大了"，我最多猜5次（$log_2 32 = 5$）就可以知道答案，所以這個信息價值5元。
- $H = -(p_1 \cdot log p_1 + p_2 \cdot log p_2 + ... + p_{32} \cdot log p_{32})$
- $H(X) = -\sum{P(x)logP(x)}$
條件熵：
$$H(X|Y) = \sum_x{p(x) \cdot H(Y|X=x)} = - \sum_x{p(x)} \sum_y{p(y|x)log(p|x)}$$

$$H(X|Y) = -\sum_{x,y}{P(x,y)logP(x|y)}$$
互信息：
$$I(X;Y) = \sum{P(x,y) \cdot log \frac{P(x,y)}{P(x)P(y)}}$$

$$I(X;Y) = H(X) - H(X|Y)$$
相對熵（交叉熵，KL散度）：
$$KL(f(x)||g(x)) = \sum{f(x) \cdot log \frac{f(x)}{g(x)}}$$

第7章賈里尼克和現代語言處理

人物傳記

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【讀書筆記】數學之美（上）

第1章文字和語言 vs 數字和信息

第2章自然語言處理從規則到統計

第3章統計語言模型

第4章談談分詞

第5章隱含馬爾科夫模型

第6章信息的度量和作用

第7章賈里尼克和現代語言處理

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

【手撕 - 深度學習】TF Lite 魔改：添加自定義 op

【編程語言】C++ STL 常用函數

【讀書筆記】數學之美（下）

【讀書筆記】數學之美（上）

【Linux】git 常用命令

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【讀書筆記】數學之美（上）

第1章 文字和語言 vs 數字和信息

第2章 自然語言處理 從規則到統計

第3章 統計語言模型

第4章 談談分詞

第5章 隱含馬爾科夫模型

第6章 信息的度量和作用

第7章 賈里尼克和現代語言處理

第1章文字和語言 vs 數字和信息

第2章自然語言處理從規則到統計

第3章統計語言模型

第4章談談分詞

第5章隱含馬爾科夫模型

第6章信息的度量和作用

第7章賈里尼克和現代語言處理