搜索引擎的運作機制，原理篇

原創

harpe1999

2020-02-22 15:06

搜索引擎是一個很強大的服務器軟件系統，他藉助分佈式的服務器集羣形成強大的網頁加工處理和檢索能力
搜索分爲三個階段:
第一：網頁抓取，其實搜索計算的東西都是他數據庫中的東西，所以說你網站有幾萬的文章，百度就收一個首頁，你再多都沒有用，收錄了才行，（差點跑題）
所以需要給用戶最全面的信息他就必須有非常強大的數據庫支持，因此搜索引擎就首先需要先在大量的網頁，這個工作就交給了我們都很熟悉的蜘蛛去做了，他每天沒事就是到處下載網頁，分析，再下載，再分析，從搜索引擎的種子站點出發，不斷的抓取其中包含的鏈接頁面，從統計上來說幾乎可以抓到互聯網上80%意以上的網頁，當然這取決於搜索引擎設置了多少種子站點，還有他的蜘蛛的工作效率。這就是搜索引擎的下載部分。

第二部分：網頁分析，在這個階段搜索引擎會調用各種計算模塊來計算你網頁的主題，鏡像度，入度，出度等等排名因素，當然還會對網頁進行切詞分析核心關鍵詞，計算出來網頁鏡像度過高的頁面，也就是我們說的採集頁面，那麼他就會刪除這些頁面，對於搜索引擎來說同樣的東西我只要一個就夠沒有必要都收錄，佔用數據庫資源，所以網站的原創性很重要，這個階段搜索引擎也就可以計算出來你的網站的每個頁面的鏈接到哪些網頁，哪些網頁又鏈接想你了，這樣每個網頁都有一個權重的值，就好像pr的計算一樣的，百度吧這個過程放到了後臺，所以我們看到百度都是很久纔會放出收錄的網頁，那是因爲他在計算，而gg就不同他是先下載，下載了以後就能查詢到，但是等他計算完成的時候如果頁面不符合要求他就會刪除，這就是很多人來問我說爲什麼我的站gg今天收錄了好幾百，明天就只有一十幾個頁面了，這個時候你就需要從你的網頁內容上那中啊原因了，不過也有可能是計算未完成的原因，如果你等了一段時間以後還是這樣就需要從你的網頁內容上那找原因了，基本就是鏡像度過高什麼的了。還有一個就是索引，搜索引擎是使用倒排索引對網頁建立從關鍵詞到網頁的索引機制，這是目前最快速的檢索機制，這個不展開來說，太長了。

第三部分是網頁的查詢階段了：搜索引擎每天需要處理非常多的查詢，那麼爲什麼我們都可以在非常短的時間內得到答案？幾乎是1秒之內，這個取決於搜索的檢索機制，搜索引擎我們前面講到了，在前期已經下載和分析了網頁，然後都每個網頁建立索引，我們輸入關鍵詞就可以獲得這個關鍵詞所包含的網頁，然後搜索調用它的計算排名的模塊來進行計算，就可以得到一個排序然後放出來，就得到了我們的搜索結果了，說的很口語，呵呵，怕很多人看不懂。搜索速度快的很大一個原因還在於搜索引擎的緩存機制，對那些搜的人多的關鍵詞處理好的排序以後放到內存中，這樣用戶再提交的時候就直接從內存中讀取，就非常的快了，大家應該都知道，在搜索的關鍵詞中只有非常小的一部分關鍵詞佔據了搜索量的絕大部分，這樣就形態就非常適合緩存這種機制了，吧搜索量大的都建立緩存放到內存中，只有少部分的關鍵詞需要讀取數據庫，自然對服務器的壓力就小了很多。這就是搜索處理的三部曲，以及爲什麼搜索引擎給你結果那麼快的原因。

harpe1999

發佈了28 篇原創文章 · 獲贊 1 · 訪問量 5萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

搜索引擎的運作機制，原理篇

Win10 LTSC 2019 安裝後的一些步驟

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

[轉]網絡測試利器netperf安裝和使用

[翻譯]080728-Thermal Face Recognition Over Time

[翻譯]080728-Thermal Signatures of Emotional Arousal: A Functional Infrared Imaging Study

搜索引擎的運作機制，原理篇

[翻譯]080802- IR and Visible Light Face Recognition

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結