數學之美系列（六）之圖論和網絡爬蟲 (Web Crawlers)

原創

pengpengfly

2020-06-17 09:05

數學之美系列六 -- 圖論和網絡爬蟲 (Web Crawlers)

2006年5月15日上午 07:15:00

發表者: 吳軍，Google 研究員

[離散數學是當代數學的一個重要分支，也是計算機科學的數學基礎。它包括數理邏輯、集合論、圖論和近世代數四個分支。數理邏輯基於布爾運算，我們已經介紹過了。這裏我們介紹圖論和互聯網自動下載工具網絡爬蟲 (Web Crawlers) 之間的關係。順便提一句，我們用 Google Trends 來搜索一下“離散數學”這個詞，可以發現不少有趣的現象。比如，武漢、哈爾濱、合肥和長沙市對這一數學題目最有興趣的城市。]

我們上回談到了如何建立搜索引擎的索引，那麼如何自動下載互聯網所有的網頁呢，它要用到圖論中的遍歷（Traverse) 算法。

圖論的起源可追溯到大數學家歐拉（Leonhard Euler）。1736 年歐拉來到德國的哥尼斯堡（Konigsberg，大哲學家康德的故鄉，現在是俄羅斯的加里寧格勒），發現當地市民們有一項消遣活動，就是試圖將下圖中的每座橋恰好走過一遍並回到原出發點，從來沒有人成功過。歐拉證明了這件事是不可能的，並寫了一篇論文，一般認爲這是圖論的開始。

圖論中所討論的的圖由一些節點和連接這些節點的弧組成。如果我們把中國的城市當成節點，連接城市的國道當成弧，那麼全國的公路幹線網就是圖論中所說的圖。關於圖的算法有很多，但最重要的是圖的遍歷算法，也就是如何通過弧訪問圖的各個節點。以中國公路網爲例，我們從北京出發，看一看北京和哪些城市直接相連，比如說和天津、濟南、石家莊、南京、瀋陽、大同直接相連。我們可以依次訪問這些城市，然後我們看看都有哪些城市和這些已經訪問過的城市相連，比如說北戴河、秦皇島與天津相連，青島、煙臺和濟南相連，太原、鄭州和石家莊相連等等，我們再一次訪問北戴河這些城市，直到中國所有的城市都訪問過一遍爲止。這種圖的遍歷算法稱爲“廣度優先算法”（BFS)，因爲它先要儘可能廣地訪問每個節點所直接連接的其他節點。另外還有一種策略是從北京出發，隨便找到下一個要訪問的城市，比如是濟南，然後從濟南出發到下一個城市，比如說南京，再訪問從南京出發的城市，一直走到頭。然後再往回找，看看中間是否有尚未訪問的城市。這種方法叫“深度優先算法”（DFS)，因爲它是一條路走到黑。這兩種方法都可以保證訪問到全部的城市。當然，不論採用哪種方法，我們都應該用一個小本本，記錄已經訪問過的城市，以防同一個城市訪問多次或者漏掉哪個城市。

現在我們看看圖論的遍歷算法和搜索引擎的關係。互聯網其實就是一張大圖，我們可以把每一個網頁當作一個節點，把那些超鏈接（Hyperlinks)當作連接網頁的弧。很多讀者可能已經注意到，網頁中那些藍色的、帶有下劃線的文字背後其實藏着對應的網址，當你點下去的的時候，瀏覽器是通過這些隱含的網址轉到相應的網頁中的。這些隱含在文字背後的網址稱爲“超鏈接”。有了超鏈接，我們可以從任何一個網頁出發，用圖的遍歷算法，自動地訪問到每一個網頁並把它們存起來。完成這個功能的程序叫做網絡爬蟲，或者在一些文獻中稱爲"機器人"（Robot)。世界上第一個網絡爬蟲是由麻省理工學院 (MIT)的學生馬休.格雷（Matthew Gray)在 1993 年寫成的。他給他的程序起了個名字叫“互聯網漫遊者”("www wanderer")。以後的網絡爬蟲越寫越複雜，但原理是一樣的。

我們來看看網絡爬蟲如何下載整個互聯網。假定我們從一家門戶網站的首頁出發，先下載這個網頁，然後通過分析這個網頁，可以找到藏在它裏面的所有超鏈接，也就等於知道了這家門戶網站首頁所直接連接的全部網頁，諸如雅虎郵件、雅虎財經、雅虎新聞等等。我們接下來訪問、下載並分析這家門戶網站的郵件等網頁，又能找到其他相連的網頁。我們讓計算機不停地做下去，就能下載整個的互聯網。當然，我們也要記載哪個網頁下載過了，以免重複。在網絡爬蟲中，我們使用一個稱爲“哈希表”(Hash Table)的列表而不是一個記事本紀錄網頁是否下載過的信息。

現在的互聯網非常巨大，不可能通過一臺或幾臺計算機服務器就能完成下載任務。比如雅虎公司（Google 沒有公開公佈我們的數目，所以我這裏舉了雅虎的索引大小爲例）宣稱他們索引了 200 億個網頁，假如下載一個網頁需要一秒鐘，下載這 200 億個網頁則需要 634 年。因此，一個商業的網絡爬蟲需要有成千上萬個服務器，並且由快速網絡連接起來。如何建立這樣複雜的網絡系統，如何協調這些服務器的任務，就是網絡設計和程序設計的藝術了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數學之美系列（六）之圖論和網絡爬蟲 (Web Crawlers)

數學之美系列六 -- 圖論和網絡爬蟲 (Web Crawlers)

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

cs04 CSS Measurement Units

數學之美（系列三）之隱含馬爾可夫模型在語言處理中的應用

數學之美（系列十三）之信息指紋及其應用

數學之美系列（六）之圖論和網絡爬蟲 (Web Crawlers)

數學之美系列五之簡單之美：布爾代數和搜索引擎的索引

數學之美（系列一）之統計語言模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

數學之美系列（六） 之 圖論和網絡爬蟲 (Web Crawlers)

數學之美系列（六）之圖論和網絡爬蟲 (Web Crawlers)