《這就是搜索引擎:核心技術詳解》---讀後感

   搜索引擎作爲互聯網發展中至關重要的一種應用,已經成爲互聯網各個領域的制高點,其重要性不言而喻。搜索引擎領域也是互聯網應用中不多見的以核心技術作爲其命脈的領域,搜索引擎各個子系統是如何設計的?這成爲廣大技術人員和搜索引擎優化人員密切關注的內容。    

   由於對網絡搜素過程不是很瞭解,剛好又是在實驗室看到這本書《這就是搜索引擎:核心技術詳解》,於是就踏上了對搜索引擎的學習之路。

   這本書最大的特點是內容新穎全面而又通俗易懂。對於實際搜索引擎所涉及的各種核心技術都有全面細緻的介紹,除了作爲搜索系統核心的網絡爬蟲、索引系統、排序系統、鏈接分析及用戶分析外,還包括網頁反作弊、緩存管理、網頁去重技術等實際搜索引擎必須關注的技術,同時用相當大的篇幅講解了雲計算與雲存儲的核心技術原理。同時,其也密切關注搜索引擎發展的前沿技術:Google的咖啡因系統及Megastore等雲計算新技術、百度的暗網抓取技術阿拉丁計劃、內容農場作弊、機器學習排序等。

   接下來,簡單的給大家講述下整個信息檢索的過程。。。

   搜索引擎的基本工作原理包括如下三個過程:首先在互聯網中發現、蒐集網頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給用戶。

1、抓取網頁。每個獨立的搜索引擎都有自己的網頁抓取程序爬蟲(spider)。爬蟲Spider順着網頁中的超鏈接,從這個網站爬到另一個網站,通過超鏈接分析連續訪問抓取更多網頁。
2、處理網頁。搜索引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引(最常用到的就是倒排索引)。其他還包括去除重複網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。

3、提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;爲了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。這就要求能夠根據用戶輸入的關鍵詞,推測出用戶的搜索意圖。

   總的來說,這本書還是很詳細的講解了搜索引擎的過程,使大家對信息檢索、網絡搜索過程有了一定的認識,當然這其中包括一些比較經典的算法,在以後會慢慢給出詳解。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章