圖論與網絡爬蟲

原創

2020-02-25 02:16

廣度優先搜索 Breadth-First Search （BFS）

深度優先搜索 Depth-First Search (DFS)

網絡爬蟲：

從任何一個網頁出發，用圖的遍歷算法，自動訪問每個網頁並把它們存儲起來，完成這個功能的程序叫Web Crawlers.

構建網絡爬蟲的工程要點：

1、在有限時間裏最多的爬下最重要的網頁：

重要：首頁。再擴大爬蟲，從首頁擴展鏈接。-----類似BFS

爬蟲的分佈式結構和網絡通信的握手成本有關。握手：下載服務器和網站的服務器建立通信的過程，這個過程需要額外時間。下載完一個網站才能再下載下一個網站------類似DFS

網絡爬蟲的遍歷不是簡單地BFS or DFS,有一個相對複雜的下載優先級排序的方法----調度系統，同時存在一個優先級隊列 Priority Queue。

2、頁面的分析和URL的提取。

頁面解析出URL比較複雜，需要模擬瀏覽器運行一個網頁，才能得到裏面隱含的URL。

3、記錄哪些網頁已經下載過的小本本——URL表。

採用哈希表，好處是，判斷一個網頁的URL是否在表中，平均只需要一次（或者略多的）查找。

問題：哈希表會很大，一個服務器存儲不下。

多臺服務器會對哈希表訪問與維護，哈希表服務器的通信工作爲瓶頸。

解答：明確每臺下載服務器的分工，調度時看到某個URL就知道交給哪臺服務器去下載。

明確分工之後，判斷URL是否可以下載可以採用批問詢和批處理，減少通信次數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大模型安全｜RAG精確應對大模型敏感問題知識幻覺難題

一、引言在大模型的實際應用落地過程中，會遇到所謂的幻覺（Hallucination）問題。對於語言模型而言，當生成的文本語法正確流暢，但與原文不符（Faithfulness）或事實不符（Factualness）時，模型便出現了幻覺的問題。

2024-06-07 21:41:51

技術實踐 | RAG精確應對大模型敏感問題知識幻覺難題

一、引言在大模型的實際應用落地過程中，會遇到所謂的幻覺（Hallucination）問題。對於語言模型而言，當生成的文本語法正確流暢，但與原文不符（Faithfulness）或事實不符（Factualness）時，模型便出現

2024-06-07 21:41:50

大模型在推薦系統中的精準推薦策略與實踐

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

華爲雲大咖說：開發者應用AI大模型的“道、法、術”

本文分享自華爲雲社區《華爲大咖說 | 企業應用AI大模型的“道、法、術” ——道：認知篇》，作者：華爲雲PaaS服務小智。本期核心觀點上車：AGI是未來5～10年內，每個人都無法迴避的技術革命，建議就近上車。迭代：眼下的AI大模型應

2024-05-30 10:58:22

怎麼使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

LoRA微調語言大模型的實用技巧與實踐

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

大模型微調方法總結：LoRA, Adapter, Prefix-tuning, P-tuning, Prompt-tuning

隨着自然語言處理（NLP）技術的不斷髮展，大模型微調（finetune）方法成爲了提高模型性能的關鍵手段。本文將對LoRA、Adapter、Prefix-tuning、P-tuning和Prompt-tuning等主流微調方法進行總結，幫助

2024-05-09 12:48:44

GLM國產大模型訓練加速：高效性能與成本優化的實踐

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

24小時熱門文章

最新文章

最新評論文章