設計一個網頁爬蟲

原創

家养程序媛关关

2020-07-02 15:18

一、需求溝通

1、用例

需求說明：

1. 百度這個網站，通過一系列的url鏈接，然後去爬取一系列的網站上的數據，生成標題和摘要信息存下來。

2. 用戶通過在百度搜索框內輸入搜索詞之後，可以看到相關的搜索結果列表。這些列表顯示的就是之前爬取到的頁面標題和摘要。

2、算數

二、答案

1、概要設計

2、擴展設計

3、關鍵點總結

1. 爬蟲的部分是不對用戶的，所以說，不能連到web server下面，是單獨的一塊。

2. 爬蟲部分：服務器通過非關係數據庫給出的原始url，爬到數據之後，通過倒排索引服務生成倒排索引，文件服務生成標題和摘要信息。由於爬蟲的數據量非常大，而且不要求實時，所以在中間加上消息隊列。

3. 只有Query API是對用戶的，所以直接連到web server下面。由於數據量很大，所以擴展部分加上緩存

4. Query API與倒排索引服務，文件服務之間可以加上SQL數據庫，用來存生成的倒排索引和文件標題摘要信息。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

16種設計思想 - Design for failure

目錄 1、防禦性設計（Defensive Design） 2、邊界情況（Edge Case） 3、防誤措施（Mistake Proofing） 4、解耦（Decoupling） 5、艙壁模式（Bulkhead） 6、冗餘（Redund

尘世间一名迷途小码农

2020-07-08 01:47:44

語義化版本編號（Semantic Versioning）

2020-07-07 12:37:00

談系統設計之面向對象設計方法

談系統設計之面向對象設計方法

2020-07-07 02:09:08

統一身份管理系統

1、什麼是SSO 單點登錄的英文名叫做：Single Sign On（簡稱SSO） CAS （Central Authentication Service） https://zhuanlan.zhihu.com/p/66037342

九号铅笔芯

2020-07-05 23:53:06

輿情繫統設計方案

1.爬蟲抓取環節需要解析來源很多種類的不同網站，每個網站所需要抓取信息的html，css格式大不相同，這個時候需要構造一個通用模版類來解析一部分網站模版的需求，然後再構造一個獨立解析的後臺系統供編輯使用創建需要解析的模版，然後爬蟲系統自動

无名的果实

2020-07-05 00:57:57

設計推特時間軸與搜索功能

一、需求溝通 1、用例 1. 用戶發佈了一篇推特服務將推特推送給關注者，給他們發送消息通知與郵件 2. 用戶瀏覽用戶時間軸（用戶最近的活動） 3. 用戶瀏覽主頁時間軸（用戶關注的人最近的活動） 4. 用戶搜索關鍵詞 5. 服務需要有高可

家养程序媛关关

2020-07-02 15:18:55

淘寶Tair分佈式緩存系統總體結構分析

簡介 tair 是淘寶自己開發的一個分佈式 key/value 存儲引擎. tair 分爲持久化和非持久化兩種使用方式. 非持久化的 tair 可以看成是一個分佈式緩存. 持久化的 tair 將數據存放於磁盤中. 爲了解決磁盤損壞導

_飞翔的企鹅_

2020-07-01 18:55:34

DDD概述和基於DDD的微服務設計概述

DDD（領域驅動設計）（轉自：https://blog.csdn.net/bestcxx/article/details/106353819） 1. 程序員的角度非DDD: 結構體+set/get 2者放在實體層，喫飯等天生的方法放在

2020-07-01 17:09:57

怎樣挖掘用戶需求

需求分析在數據庫生命週期中至關重要，通常也是涉及人員最多的步驟。數據庫設計師在這個階段必須走訪最終用戶，與他們進行訪談，從而確定用戶想在系統中存儲什麼數據以及想怎樣使用這些數據。我們將需求分析分爲兩個步驟：1.理解用戶需求；2

2020-06-28 08:08:38

系統設計：關於高可用系統的一些技術方案-- 引用

引用學習地址如下： https://blog.csdn.net/hustspy1990/article/details/78008324

会弹钢琴的工程师

2020-06-28 04:03:43

6. 秒殺系統-影響性能的因素和提高系統性能的方法

影響性能的因素 “性能”，服務設備不同對性能的定義也是不一樣的，例如 CPU 主要看主頻、磁盤主要看 IOPS（Input/Output Operations Per Second，即每秒進行讀寫操作的次數）。我們討論的主要

2020-06-26 14:24:19

GUI 設計原則

1. 理解用戶要做什麼。典型的用戶界面設計都要進行任務分析來理解用戶任務的性質。 2. 讓用戶在系統的交互過程中有掌握控制權的感覺。無論何時用戶發起的交互都應該可以被取消。 3. 要提供多種方式來完成每個與界面相關的動作（例如關閉一個窗口

2020-06-26 13:17:20

需求分析注意事項

在談話過程中應該不時地停下來做養總結，測試一下你對問題的理解，熟悉和使用領域術語，並晝使談話氣氛保持輕鬆愉快。對你所不熟悉的領域術語，務必讓對方解釋清楚。不必擔心對方覺得你無知。你和他談話的目的正是要獲得業務知識，學習領域術語。畢竟在後

2020-06-26 13:17:20

ARTS 20190921 technique lambda 架構 wiki

wiki對lambda架構的解釋很簡明： https://en.wikipedia.org/wiki/Lambda_architecture 1.數據庫不覆蓋已有的數據，新數據加時間戳保存； 2.採用預計算+緩存的方式加速查詢； 3.對最

葛俊在新泽西

2020-06-26 05:11:00

告警規則算法 RealTimeAlarm 02

doc=NotifyRequestDocument.Factory.newInstance(); NotifyReque

2020-06-25 11:52:07

24小時熱門文章

HTTP URL 詳解

最新文章

最新評論文章