主要概要有:
- 語言的興起
- 人工智能
- 自然語言處理
- 中文分詞
- 隱馬爾可夫
- 信息熵
- 賈里尼克
- 布爾與搜索
- 圖論與爬蟲
- PageRank——相關性與可信度
- TF-IDF
- 餘弦定理與分類
- 矩陣運算與文本處理
- 信息指紋
- 密碼學
- 搜索引擎
- 最大熵模型
- 拼音輸入法
- 馬庫斯
- 布隆過濾
- 貝葉斯網絡
- 條件隨機場
- 維特比
- K均值與分類
- 邏輯迴歸與廣告
- MapReduce
關鍵內容有:
1.信息度量
信息就是不確定性的多少,信息就是要減少不確定性;
熵: 信息的混雜程度,越大,信息越雜,越不純;
條件熵: 一個信息確定的條件下,另外一個信息不確定度的減少量;
互信息: 在一個信息的條件下,爲了是另外一個信息不確定度減少所需要提供的信息量;
相對熵: 衡量兩個函數值爲正數的函數的相關性。
2.指紋信息
指紋: 每段信息包括文字,圖片,音頻,等都可以對應一組不太長的隨機數
僞隨機數:壓縮
基於加密的僞隨機數:密碼
集合的判定,文章,網頁的判定,視頻的判定
指紋可能重複,但可能性很小
相似哈希:詞,權重,指紋,二進制的結合(提供了一種思路)
3.最大熵模型
最大熵原理: 保留全部的不確定性,讓風險降到最小;
最大熵模型: 在所有滿足約束條件的模型中選出熵最大的模型;
模型學習: 任何一組不自相矛盾的信息,最大熵模型存在並且唯一,都具有相同的形式,指數形式;
特點: 能同時滿足成千上萬的中不同條件的模型(有效的組合很多特徵)
參數訓練: 對數似然函數求極大
4.期望最大
如果模型的變量都是觀測變量,用極大似然估計或貝葉斯估計
如果存在隱含變量,用EM迭代,最大後驗概率
典型:kmeans聚類,隱馬的參數訓練,最大熵模型的訓練
特點: 局部最優,計算速度慢
5.散列表與布隆過濾器
散列表的核心:哈希函數hashcode(),equals()函數;
散列表的特點:時間複雜度o(1),浪費空間,衝突;
布隆過濾器核心: 一組二進制數和隨機映射函數;
布隆過濾器的特點: 時間複雜度o(1),節約空間,到存在錯誤率
6.文本分類
相似性: 餘弦定理,距離
方法: k近鄰思想,自底向上的兩兩合併,EM迭代,奇異值分解;
技巧: 計算時存儲重複計算的變量,只考慮非零元素,刪除虛詞
餘弦定理和奇異分解:餘弦定理多次迭代,計算量大,消耗資源多;svd無需多次迭代,時間短,但存儲空間需求大,適合超大規模分類;建議svd粗分類,餘弦定理細分類
TF-IDF解決兩個重要問題:詞的預測能力越強,權重越大;停止詞的權重爲零
7.隱馬爾可夫
馬爾可夫假設: t時刻的狀態只取決於t-1時刻
馬爾可夫鏈: 狀態鏈
隱馬模型: 初始概率分佈,狀態轉移概率分佈,觀測概率分佈(馬爾可夫假設,觀測獨立)
3個問題:
參數估計-baum-uelch算法
計算概率-直接,前向,後向算法
預測狀態-維特比算法(動態規劃)
8.貝葉斯網絡
是馬爾可夫鏈的推廣(鏈狀-拓撲)
又稱信念網絡: 弧+可信度
訓練: 結構和參數訓練,交叉進行
方法: 貪心算法,蒙卡,互信息
9.條件隨機場
特點:觀測值可能和前後的狀態都有關
條件隨機場是無向圖,貝葉斯網絡是有向圖
核心:找到符合所有邊緣分佈的最大熵模型
10.有限狀態機和動態規劃
有限狀態機: 開始,終止狀態,有向弧,條件
常見: 建立狀態機,已知狀態機匹配字符串
區別: 基於概率的有限狀態機和離散馬爾可夫鏈等效
動態規劃: 把全程路徑最短鎖定到局部路徑最短
作者:哈得死
鏈接:https://www.jianshu.com/p/0b997bd1c125
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯繫作者獲得授權並註明出處。