搜索引擎-03-搜索引擎原理

拓展閱讀

搜索引擎-01-概覽

搜索引擎-02-分詞與全文索引

搜索引擎-03-搜索引擎原理

Crawl htmlunit 模擬瀏覽器動態 js 爬蟲入門使用簡介

Crawl jsoup 爬蟲使用 jsoup 無法抓取動態 js 生成的內容

Crawl WebMagic 爬蟲入門使用簡介 webmagic

全網搜索引擎架構與流程如何?

全網搜索引擎的宏觀架構如上圖,核心子系統主要分爲三部分(粉色部分):

(1)spider 爬蟲系統;

(2)search+index: 建立索引與查詢索引系統,這個系統又主要分爲兩部分:

一部分用於生成索引數據 build_index

一部分用於查詢索引數據 search_index

(3)rank 打分排序系統;

核心數據主要分爲兩部分(紫色部分):

(1)web 網頁庫;

(2)index 索引數據;

全網搜索引擎的業務特點決定了,這是一個“寫入”和“檢索”分離的系統

如何寫入

系統組成:由spider與search+index;兩個系統完成。

輸入:站長們生成的互聯網網頁。

輸出:正排倒排索引數據。

流程:如架構圖中的1,2,3,4:

(1)spider把互聯網網頁抓過來;

(2)spider把互聯網網頁存儲到網頁庫中(這個對存儲的要求很高,要存儲幾乎整個“萬維網”的鏡像);

(3)build_index從網頁庫中讀取數據,完成分詞;

(4)build_index生成倒排索引;

如何建立索引

系統組成:由search+index;與rank兩個系統完成。

輸入:用戶的搜索詞。

輸出:排好序的第一頁檢索結果。

流程:如架構圖中的a,b,c,d:

(a)search_index獲得用戶的搜索詞,完成分詞;

(b)search_index查詢倒排索引,獲得“字符匹配”網頁,這是初篩的結果;

(c)rank對初篩的結果進行打分排序;

(d)rank對排序後的第一頁結果返回;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章