目錄-深度學習

1 引言
1.1 本書面向的作者
1.2 深度學習的歷史趨勢
1.2.1 神經網絡的衆多名稱和命運變遷
1.2.2 與日俱增的數據量
1.2.3 與日俱增的模型規模
1.2.4 與日俱增的精度,複雜度和對現實世界的衝擊

一 應用數學與機器學習基礎
2 線性代數
2.1 標量,向量,矩陣和張量
2.2 矩陣和向量相乘
2.3 單位矩陣和逆矩陣
2.4 線性相關和生成子空間
2.5 範數
2.6 特殊類型和矩陣向量
2.7 特徵分解
2.8 奇異值分解
2.9 Moore-Penrose僞逆
2.10 跡運算
2.11 行列式
2.12 實例:主成分分析

3 概率論與信息論
3.1 爲什麼使用概率?
3.2 隨機變量
3.3 概率分佈
3.3.1 離散型變量和概率質量函數
3.3.2 連續性變量和概率密度函數
3.4 邊緣概率
3.5 條件概率
3.6 條件概率的鏈式分佈
3.7 獨立性和條件獨立性
3.8 期望,方差和協方差
3.9 常用概率分佈
3.9.1 Bernoulli分佈
3.9.2 Multinoulli分佈
3.9.3 高斯分佈
3.9.4 指數分佈和Lacplace分佈
3.9.5 Dirac分佈和經驗分佈
3.9.6 分佈的混合
3.10 常用函數的有用性質
3.11 貝葉斯規則
3.12 連續型變量的技術細節
3.13 信息論
3.14 結構化概率模型

4 數值計算
4.1 上溢和下溢
4.2 病態條件
4.3 基於梯度的優化方法
4.3.1 梯度之上:jacobian和hessian矩陣
4.4 約束優化
4.5 實例:線性最小二乘

5 機器學習基礎
5.1 學習算法
5.1.1 任務T
5.1.2 性能度量P
5.1.3 經驗E
5.1.4 示例:線性迴歸
5.2 容量,過擬合和欠擬合
5.2.1 沒有免費午餐定理
5.2.2 正則化
5.3 超參數和驗證集
5.3.1 交叉驗證
5.4 估計,偏差和方差
5.4.1 點估計
5.4.2 偏差
5.4.3 方差和標準差
5.4.4 權衡偏差和方差以最小化均方誤差
5.4.5 一致性
5.5 最大似然估計
5.5.1 條件對數似然和均方誤差
5.5.2 最大似然的性質
5.6 貝葉斯統計
5.6.1 最大後驗(MAP)估計
5.7 監督學習算法
5.7.1 概率監督學習
5.7.2 支持向量機
5.7.3 其他簡單的監督學習算法
5.8 無監督學習算法
5.8.1 主成分分析
5.8.2 K-均值聚類
5.9 隨機梯度下降
5.10 構建機器學習算法
5.11 促使深度學習發展的挑戰
5.11.1 維數災難
5.11.2 局部不變性和平滑正則化

二 深度網絡:現代實踐
6 深度前饋網絡
6.1 實例:學習XOR
6.2 基於梯度的學習
6.2.1 代價函數
6.2.1.1 使用最大似然學習條件分佈
6.2.1.2 學習條件統計量
6.2.2 輸出單元
6.2.2.1 用於高斯輸出分佈的線性單元
6.2.2.2 用於Bernoulli輸出分佈的sigmoid單元
6.2.2.3 用於Multinoulli輸出分佈的softmax單元
6.2.2.4 其他的輸出類型
6.3 隱藏單元
6.3.1 整流線性單元及其擴展
6.3.2 logistic sigmoid與雙曲正切函數
6.3.3 其他隱藏單元
6.4 架構設計
6.4.1 萬能近似性質和深度
6.4.2 其他架構上的考慮
6.5 反向傳播和其他的微分算法
6.5.1 計算圖
6.5.2 微積分中的鏈式法則
6.5.3 遞歸地使用鏈式法則來實現反向傳播
6.5.4 全連接MLP中的反向傳播計算
6.5.5 符號到符號的導數
6.5.6 一般化的反向傳播
6.5.7 實例:用於MLP訓練的反向傳播
6.5.8 複雜化
6.5.9 深度學習界以外的微積分
6.5.10 高階微分
6.6 歷史小計

7 深度學習中的正則化
7.1 參數範數懲罰
7.1.1 L2參數正則化
7.1.2 L1參數正則化
7.2 作爲約束的範數懲罰
7.3 正則化和欠約束問題
7.4 數據集增強
7.5 噪聲魯棒性
7.5.1 向輸出目標註入噪聲
7.6 半監督學習
7.7 多任務學習
7.8 提前終止
7.9 參數綁定和參數共享
7.10 稀疏表示
7.11 Bagging和其他集成方法
7.12 Dropout
7.13 對抗訓練
7.14 切面距離,正切傳播和流行正切分類器

8 深度模型中的優化
8.1 學習和純優化有什麼不同
8.1.1 經驗風險最小化
8.1.2 代理損失函數和提前終止
8.1.3 批量算法和小批量算法
8.2 神經網絡優化中的挑戰
8.2.1 病態
8.2.2 局部極小值
8.2.3 高原,鞍點和其他平坦區域
8.2.4 懸崖和梯度爆炸
8.2.5 長期依賴
8.2.6 非精確梯度
8.2.7 局部和全局結構間的弱對應
8.2.8 優化的理論限制
8.3 基本算法
8.3.1 隨機梯度下降
8.3.2 動量
8.3.3 Nesterov動量
8.4 參數初始化策略
8.5 自適應學習率算法
8.5.1 AdaGrad
8.5.2 RMSProp
8.5.3 Adam
8.5.4 選擇正確的優化算法
8.6 二階近似方法
8.6.1 牛頓法
8.6.2 共軛梯度
8.6.3 BFGS
8.7 優化策略和元算法
8.7.1 批標準化
8.7.2 座標下降
8.7.3 Polyak平均
8.7.4 監督與訓練
8.7.5 設計有助於優化的模型
8.7.6 延拓法和課程學習

9 卷積網絡
9.1 卷積運算
9.2 動機
9.3 池化
9.4 卷積與池化作爲一種無限強的先驗
9.5 基本卷積函數的變體
9.6 結構化輸出
9.7 數據類型
9.8 高效的卷積算法
9.9隨機或無監督的特徵
9.10 卷積網絡的神經科學基礎
9.11 卷積網絡與深度學習的歷史

10 序列模型:循環和遞歸網絡
10.1 展開計算圖
10.2 循環神經網絡
10.2.1 導師驅動過程和輸出循環網絡
10.2.2 計算循環神經網絡的梯度
10.2.3 作爲有向圖模型的循環網絡
10.2.4 基於上下文的RNN序列建模
10.3 雙向RNN
10.4 基於編碼-解碼的序列到序列架構
10.5 深度循環網絡
10.6 遞歸神經網絡
10.7 長期依賴的挑戰
10.8 回聲狀態網絡
10.9 滲漏單元和其他多時間尺度的策略
10.9.1 事件維度的跳躍連接
10.9.2 滲漏單元和一系列不同時間尺度
10.9.3 刪除連接
10.10 長短期記憶和其他門控RNN
10.10.1 LSTM
10.10.2 其他門控RNN
10.11 優化長期依賴
10.11.1 截斷梯度
10.11.2 引導信息流的正則化
10.12 外顯記憶

11 實踐方法論
11.1 性能度量
11.2 默認的基準模型
11.3 決定是否收集更多數據
11.4 選擇超參數
11.4.1 手動調整超參數
11.4.2 自動超參數優化算法
11.4.3 網格搜索
11.4.4 隨機搜索
11.4.5 基於模型的超參數優化
11.5 調試策略
11.6 示例:多位數字識別

12 應用
12.1 大規模深度學習
12.1.1 快速的CPU實現
12.1.2 GPU實現
12.1.3 大規模的分佈式實現
12.1.4 模型壓縮
12.1.5 動態結構
12.1.6 深度網絡的專用硬件實現
12.2 計算機視覺
12.2.1 預處理
12.2.1.1 對比度歸一化
12.2.2 數據集增強
12.3 語音識別
12.4 自然語言處理
12.4.1 n-gram
12.4.2 神經語言模型
12.4.3 高維輸出
12.4.3.1 使用短列表
12.4.3.2 分層softmax
12.4.3.3 重要採樣
12.4.3.4 噪聲對比估計和排名損失
12.4.4 結合n-gram和神經語言模型
12.4.5 神經機器翻譯
12.4.5.1 使用注意力機制並對齊數據片段
12.4.6 歷史展望
12.5 其他應用
12.5.1 推薦系統
12.5.1.1 探索和利用
12.5.2 知識表示,推理和回答
12.5.2.1 知識,聯繫和回答

三 深度學習研究
13 線性因子模型
13.1 概率PCA和因子分析
13.2 獨立成分分析
13.3 慢特徵分析
13.4 稀疏編碼
13.5 PCA的流形解釋

14 自編碼器
14.1 欠完備自編碼器
14.2 正則自編碼器
14.2.1 稀疏自編碼器
14.2.2 去躁自編碼器
14.2.3 懲罰導數作爲正則
14.3 表示能力,層的大小和深度
14.4 隨機編碼器和解碼器
14.5 去噪自編碼器
14.5.1 得分估計
14.5.2 歷史展望
14.6 使用自編碼器學習流行
14.7 收縮自編碼器
14.8 預測稀疏分解
14.9 自編碼器的應用

15 表示學習
15.1 貪心逐層無監督預訓練
15.1.1 何時以及爲何無監督預訓練有效
15.2 遷移學習和領域自適應
15.3 半監督解釋因果關係
15.4 分佈式表示
15.5 得益於深度的指數增益
15.6 提供發現潛在原因的線索

16 深度學習中的結構化概率模型
16.1 非結構化建模的挑戰
16.2 使用圖描述結構模型
16.2.1 有向模型
16.2.2 無向模型
16.2.3 配分函數
16.2.4 基於能量的模型
16.2.5 分離和d-分離
16.2.6 在有向模型和無項模型中轉換
16.2.7 因子圖
16.3 從圖模型中採樣
16.4 結構化建模的優勢
16.5 學習依賴關係
16.6 推斷和近似推斷
16.7 結構化概率模型的深度學習方法
16.7.1 實例:受限波爾滋蔓機

17 蒙特卡羅方法
17.1 採樣和蒙特卡羅方法
17.1.1 爲什麼需要採樣
17.1.2 蒙特卡羅採樣的基礎
17.2 重要採樣
17.3 馬爾科夫鏈蒙特卡羅方法
17.4 Gibbs採樣
17.5 不同的峯值之間的混合挑戰
17.5.1 不同峯值之間通過回火來混合
17.5.2 深度也許會有助於混合

18 直面配分函數
18.1 對數似然梯度
18.2 隨機最大似然和對比散度
18.3 僞似然
18.4 得分匹配和比率匹配
18.5 去噪得分匹配
18.6 噪聲對比估計
18.7 估計配分函數
18.7.1 退火重要採樣
18.7.2 橋式採樣

19 近似推斷
19.1 把推斷試做優化問題
19.2 期望最大化
19.3 最大後驗推斷和稀疏編碼
19.4 變分推斷和變分學習
19.4.1 離散型潛變量
19.4.2 變分法
19.4.3 連續型潛變量
19.4.4 學習和推斷之間的相互作用
19.5 學成近似推斷
19.5.1 醒眠算法
19.5.2 學成推斷的其他形式

20 深度生成模型
20.1 玻爾茲曼機
20.2 受限玻爾茲曼機
20.2.1 條件分佈
20.2.2 訓練受限玻爾茲曼機
20.3 深度信念網絡
20.4 深度玻爾茲曼機
20.4.1 有趣的性質
20.4.2 DBM均勻場推斷
20.4.3 DBM的參數學習
20.4.4 逐層預訓練
20.4.5 聯合訓練深度玻爾茲曼機
20.5 實值數據上的玻爾茲曼機
20.5.1 Gaussian-Bernoulli RBM
20.5.2 條件協方差的無項模型
20.6 卷積波爾滋蔓機
20.7 用於結構化或序列輸出的玻爾茲曼機
20.8 其他玻爾茲曼機
20.9 通過隨機操作的反向傳播
20.9.1 通過離散隨機操作的反向傳播
20.10 有向生成網絡
20.10.1 sigmoid信念網絡
20.10.2 可微生成器網絡
20.10.3 變分自編碼器
20.10.4 生成式對抗網絡
20.10.5 生成矩匹配網絡
20.10.6 卷積生成網絡
20.10.7 自迴歸網絡
20.10.8 線性自迴歸網絡
20.10.9 神經自迴歸網絡
20.10.10 NADE
20.11 從自編碼器採樣
20.11.1 與任意去噪自編碼器相關的馬爾科夫鏈
20.11.2 夾合與條件採樣
20.11.3 回退訓練過程
20.12 生成隨機網絡
20.12.1 判別性GSN
20.13 其他生成方案
20.14 評估生成模型
20.15 結論

參考文獻 深度學習

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章