每週一書《大數據搜索引擎原理分析及編程實現》分享!

內容簡介

本書向讀者提供了一套完整的大數據時代背景下的搜索引擎解決方案,詳盡地介紹了搜索引擎的技術架構、算法體系及取得的效果,以模塊化的方式進行組織。着重介紹了機器學習在搜索引擎中的應用,包括中文分詞、聚類、分類等核心的機器學習算法,並結合示例加以介紹和分析,使讀者可以更好地理解機器學習在搜索引擎中的價值。還闡述了大數據給搜索引擎帶來的新特性,結合目前大數據分析的主流工具,在搜索引擎中構建知識圖譜,以及進行日誌反饋學習機制,使得搜索引擎更加智能。本書適合作爲互聯網行業從業者的技術參考書,也適合作爲搜索引擎愛好者的參考讀物。

每週一書《大數據搜索引擎原理分析及編程實現》分享!

▲圖片來源於網絡

試用對象
1、適合對自然語言處理及機器學習應用領域有興趣的讀者。
2、適合對現代搜索引擎相關算法有興趣的讀者。
3、適合對大數據分析、數據挖掘應用有興趣的讀者。
4、適合互聯網行業的不同層次從業者。
5、適合從事搜索引擎優化的網絡營銷讀者。
6、適合高校中學習計算機、軟件工程等相關專業的讀者。

目錄
第1章 引論1
1.1 搜索引擎的過去1
1.2 搜索引擎的現在2
1.3 搜索引擎的未來4
1.4 大數據與搜索引擎6
1.4.1 搜索價值提升6
1.4.2 用戶價值提升7
1.5 大數據與人工智能7
1.5.1 人工智能發展7
1.5.2 人工智能技術9
1.6 本章小結11
第2章 搜索引擎原理與技術12
2.1 基本工作原理12
2.2 基本模塊結構13
2.2.1 爬蟲服務14
2.2.2 索引服務15
2.2.3 緩存服務16
2.2.4 搜索服務17
2.2.5 日誌服務19
2.3 技術概要20
2.3.1 自然語言處理20
2.3.2 知識圖譜技術21
2.3.3 海量數據存儲23
2.3.4 分佈式計算25
2.3.5 搜索排序技術26
2.4 本章小結27
第3章 自然語言處理框架28
3.1 英文分詞28
3.2 中文分詞30
3.2.1 中文分詞概述30
3.2.2 基於詞庫的分詞技術31
3.2.3 基於條件隨機場的中文分詞33
3.2.4 分詞粒度41
3.3 詞性標註41
3.3.1 隱馬爾科夫模型概要42
3.3.2 隱馬爾科夫模型與詞性標註43
3.4 語義相似度51
3.5 依存句法分析53
3.5.1 依存句法分析概要53
3.5.2 依存句法分析實現56
3.6 情感傾向分析59
3.7 文檔關鍵詞抽取61
3.7.1 關鍵詞抽取概述61
3.7.2 基於TF-IDF算法62
3.7.3 基於TextRank算法64
3.8 文檔句子相似度分析67
3.8.1 句子相似度68
3.8.2 文檔相似度70
3.9 文檔核心句抽取71
3.10 聚類分類74
3.10.1 文本分類75
3.10.2 文本聚類80
3.11 語種檢測84
3.12 本章小結87
第4章 構建大數據存儲引擎88
4.1 架構體系89
4.1.1 結構概要89
4.1.2 服務器上線92
4.1.3 服務器下線92
4.1.4 數據讀取93
4.2 數據模型94
4.3 數據壓縮96
4.4 負載均衡97
4.5 數據存儲邏輯視圖100
4.6 本章小結103
第5章 構建分佈式實時計算104
5.1 概述104
5.2 設計架構106
5.2.1 設計思想106
5.2.2 基本框架108
5.3 運行模式110
5.4 負載均衡111
5.5 通信設計112
5.5.1 基本方式113
5.5.2 分佈式遠程服務調用113
5.6 容災恢復114
5.7 數據容錯原理115
5.8 數據處理設計示例117
5.9 本章小結118
第6章 分佈式可擴展爬蟲119
6.1 爬蟲體系架構119
6.1.1 主從分佈式結構爬蟲120
6.1.2 對等分佈式結構爬蟲120
6.1.3 基於分佈式計算平臺爬蟲121
6.2 網頁解析122
6.2.1 狀態碼處理123
6.2.2 鏈接去重123
6.2.3 廣告識別125
6.2.4 網站地圖128
6.2.5 非網頁數據獲取129
6.2.6 網頁去重130
6.2.7 鏈接提取134
6.2.8 爬蟲協議135
6.3 網頁結構化137
6.3.1 網頁的編碼信息137
6.3.2 網頁的正文信息138
6.3.3 網站的關鍵詞信息142
6.3.4 網站的標題142
6.3.5 網頁的發佈時間144
6.3.6 網站語言檢測144
6.3.7 其他結構化數據145
6.4 網頁抓取策略146
6.5 爬蟲權限應對147
6.6 深網抓取150
6.7 抓取更新策略151
6.8 本章小結153
第7章 大數據構建知識圖譜154
7.1 概述154
7.2 搜索引擎與知識圖譜155
7.3 可靠數據源選擇157
7.4 實體抽取158
7.5 關係抽取159
7.5.1 關係抽取概述160
7.5.2 隱藏關係抽取161
7.5.3 結構化確定關係抽取164
7.5.4 非結構化確定關係抽取166
7.6 知識圖譜檢測171
7.6.1 實體關係修正171
7.6.2 實體對齊整合172
7.6.3 實體歧義分析174
7.7 知識推理與計算175
7.7.1 知識推理175
7.7.2 知識計算176
7.8 知識聚類179
7.9 智能搜索實現181
7.9.1 模式匹配181
7.9.2 知識拆解182
7.9.3 合併求解184
7.10 智能搜索擴展186
7.10.1 常識性智能搜索186
7.10.2 實時信息智能搜索187
7.10.3 可交互式智能搜索187
7.11 本章小結189
第8章 索引構建機制190
8.1 倒排索引190
8.1.1 倒排索引概述191
8.1.2 索引結構192
8.1.3 構建過程194
8.1.4 排序規則195
8.1.5 索引壓縮196
8.1.6 更新策略202
8.2 分佈式存儲202
8.2.1 存儲劃分方式203
8.2.2 存儲平衡策略204
8.3 存儲索引209
8.3.1 二叉搜索樹210
8.3.2 B樹211
8.3.3 B+樹213
8.3.4 B+樹與文件索引214
8.4 字典樹索引216
8.4.1 字典樹索引概述217
8.4.2 字典樹索引構建219
8.4.3 字典樹查詢優化221
8.5 本章小結221
第9章 搜索服務構建223
9.1 概述223
9.1.1 體系結構223
9.1.2 七何分析法224
9.1.3 搜索語法225
9.1.4 相關性排序227
9.1.5 不安全信息過濾231
9.2 大數據分佈式緩存235
9.2.1 緩存結構設計235
9.2.2 緩存更新策略236
9.3 文本糾錯算法237
9.3.1 中文文本糾錯237
9.3.2 英文文本糾錯241
9.4 結果顯示算法242
9.4.1 動態摘要243
9.4.2 關鍵詞高亮算法246
9.4.3 網頁快照250
9.5 搜索智能提示250
9.6 網頁排序254
9.6.1 基於PageRank的網頁重要性評價254
9.6.2 基於Hits算法的網頁權威性評價257
9.6.3 Hilltop算法259
9.6.4 網頁作弊評價260
9.6.5 網頁排序調試263
9.7 個性化搜索264
9.7.1 個性化搜索示例264
9.7.2 人工神經網絡與個性化搜索265
9.7.3 地理位置搜索266
9.8 圖片搜索271
9.8.1 基於內容的圖片搜索271
9.8.2 基於文本的圖片搜索272
9.9 搜索與廣告274
9.9.1 廣告投放策略275
9.9.2 基於User-Based協同過濾的廣告投放275
9.9.3 基於Item-Based協調過濾的廣告投放277
9.9.4 基於混合模式廣告投放278
9.9.5 廣告投放評價279
9.10 搜索引擎評價282
9.10.1 搜索評價概述282
9.10.2 基於準確率、召回率及F值評價283
9.10.3 歸一化折扣累計增益285
9.11 本章小結288
第10章 基於用戶日誌的反饋學習290
10.1 基於用戶搜索詞語的分析290
10.1.1 發現搜索詞的價值291
10.1.2 發現不明意圖下的用戶行爲292
10.2 基於用戶點擊日誌的分析293
10.2.1 時間與搜索意圖的關係293
10.2.2 地理位置與搜索意圖的關係294
10.2.3 點擊日誌與同義詞296
10.2.4 點擊日誌與詞語權重297
10.2.5 點擊日誌與新詞分類298
10.2.6 點擊日誌與知識圖譜300
10.2.7 點擊日誌與網頁重排序301
10.2.8 點擊日誌與網頁評價303
10.3 基於用戶的特徵分析304
10.3.1 用戶跟蹤305
10.3.2 用戶羣體特徵306
10.3.3 用戶個體特徵308
10.4 本章小結309

如果想得到下載地址,請訪問中科院計算所培訓中心官網www.tcict.cn
添加官網上的微信客服獲取!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章