搜索引擎-03-搜索引擎原理

原創

2024-04-04 13:59

拓展閱讀

搜索引擎-01-概覽

搜索引擎-02-分詞與全文索引

搜索引擎-03-搜索引擎原理

Crawl htmlunit 模擬瀏覽器動態 js 爬蟲入門使用簡介

Crawl jsoup 爬蟲使用 jsoup 無法抓取動態 js 生成的內容

Crawl WebMagic 爬蟲入門使用簡介 webmagic

全網搜索引擎架構與流程如何？

全網搜索引擎的宏觀架構如上圖，核心子系統主要分爲三部分（粉色部分）：

（1）spider 爬蟲系統；

（2）search+index: 建立索引與查詢索引系統，這個系統又主要分爲兩部分：

一部分用於生成索引數據 build_index

一部分用於查詢索引數據 search_index

（3）rank 打分排序系統；

核心數據主要分爲兩部分（紫色部分）：

（1）web 網頁庫；

（2）index 索引數據；

全網搜索引擎的業務特點決定了，這是一個“寫入”和“檢索”分離的系統

如何寫入

系統組成：由spider與search+index;兩個系統完成。

輸入：站長們生成的互聯網網頁。

輸出：正排倒排索引數據。

流程：如架構圖中的1，2，3，4：

（1）spider把互聯網網頁抓過來；

（2）spider把互聯網網頁存儲到網頁庫中（這個對存儲的要求很高，要存儲幾乎整個“萬維網”的鏡像）；

（3）build_index從網頁庫中讀取數據，完成分詞；

（4）build_index生成倒排索引；

如何建立索引

系統組成：由search+index;與rank兩個系統完成。

輸入：用戶的搜索詞。

輸出：排好序的第一頁檢索結果。

流程：如架構圖中的a，b，c，d：

（a）search_index獲得用戶的搜索詞，完成分詞；

（b）search_index查詢倒排索引，獲得“字符匹配”網頁，這是初篩的結果；

（c）rank對初篩的結果進行打分排序；

（d）rank對排序後的第一頁結果返回；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

搜索引擎-03-搜索引擎原理

拓展閱讀

全網搜索引擎架構與流程如何？

如何寫入

如何建立索引

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

h30 HTML Layout Elements

瞭解顯卡

Shell/Python中的用戶名獲取

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Nginx-05-nginx 反向代理是什麼？windows 下如何配置使用 nginx

Nginx-03-Nginx 項目架構

Nginx-01-爲什麼使用 Nginx? nginx 的優缺點

Nginx-01-聊一聊 nginx

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結