面試題 | 設計twitter搜索功能

原創

2020-02-23 12:23

題目

現在你是twitter搜索負責人，設計搜索系統，提供圖片、文字搜索
- 用戶1.5 billion，日活800 million
- 每天新增400 million tweets （每個tweet大小300B）
- 每天搜索次數500M
- 搜索格式包含多個words以及 and/or
設計高效存儲和查詢tweets的系統

約束

日存儲量120GB，月3.6TB，10年432TB
tweet數量：日400M，月12B，年144B，5年740B
讀qps 6K，寫qps 4.5K
讀寫均衡，高併發系統

服務

high level

索引服務 + 存儲服務
存儲數量很大，一臺機器存不下，sharding要能加快搜索；
存儲時需要做一些優化，加快搜索；生成索引信息，提取word和對應tweetId；可以快速找到某個word對應的tweetid列表；
用戶只會關心她關注的好友的信息，如果一個人粉絲特別多，pull可能不行；

存儲

存儲規模

機器數量：5年220TB，按照80%利用率；需要300TB；75臺機器；
1T數據條數，1000billion數據；需要一個發號器srv，7位62編碼即可實現

索引規模

預估index的大小：
- 一個word平均5B，500K個word，5 * 500KB = 2.5MB
- tweetID：每個tweetID的大小爲7B，5年，7B * 740B = 5TB；考慮每條tweet有50個word，有效word是20個；每個tweetID被重複使用20次；需要100TB
- 總大小 (100TB + 2.5MB) = 100TB
機器預估：
- 內存144GB，大概需要700臺機器存儲index
sharding on words 主要問題
- 訪問熱點word，導致機器負載過高
- 分佈不均勻，有些word是高頻詞，引用的tweet過多
- 解法：？？
sharding on tweetID
- 需要遍歷所有的index server，聚合tweetid集合

擴展

索引服務down掉如何處理

重建索引

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

16種設計思想 - Design for failure

目錄 1、防禦性設計（Defensive Design） 2、邊界情況（Edge Case） 3、防誤措施（Mistake Proofing） 4、解耦（Decoupling） 5、艙壁模式（Bulkhead） 6、冗餘（Redund

尘世间一名迷途小码农

2020-07-08 01:47:44

語義化版本編號（Semantic Versioning）

2020-07-07 12:37:00

談系統設計之面向對象設計方法

談系統設計之面向對象設計方法

2020-07-07 02:09:08

統一身份管理系統

1、什麼是SSO 單點登錄的英文名叫做：Single Sign On（簡稱SSO） CAS （Central Authentication Service） https://zhuanlan.zhihu.com/p/66037342

九号铅笔芯

2020-07-05 23:53:06

輿情繫統設計方案

1.爬蟲抓取環節需要解析來源很多種類的不同網站，每個網站所需要抓取信息的html，css格式大不相同，這個時候需要構造一個通用模版類來解析一部分網站模版的需求，然後再構造一個獨立解析的後臺系統供編輯使用創建需要解析的模版，然後爬蟲系統自動

无名的果实

2020-07-05 00:57:57

設計一個網頁爬蟲

一、需求溝通 1、用例需求說明： 1. 百度這個網站，通過一系列的url鏈接，然後去爬取一系列的網站上的數據，生成標題和摘要信息存下來。 2. 用戶通過在百度搜索框內輸入搜索詞之後，可以看到相關的搜索結果列表。這些列表顯示的就是之前爬

家养程序媛关关

2020-07-02 15:18:55

設計推特時間軸與搜索功能

一、需求溝通 1、用例 1. 用戶發佈了一篇推特服務將推特推送給關注者，給他們發送消息通知與郵件 2. 用戶瀏覽用戶時間軸（用戶最近的活動） 3. 用戶瀏覽主頁時間軸（用戶關注的人最近的活動） 4. 用戶搜索關鍵詞 5. 服務需要有高可

家养程序媛关关

2020-07-02 15:18:55

淘寶Tair分佈式緩存系統總體結構分析

簡介 tair 是淘寶自己開發的一個分佈式 key/value 存儲引擎. tair 分爲持久化和非持久化兩種使用方式. 非持久化的 tair 可以看成是一個分佈式緩存. 持久化的 tair 將數據存放於磁盤中. 爲了解決磁盤損壞導

_飞翔的企鹅_

2020-07-01 18:55:34

DDD概述和基於DDD的微服務設計概述

DDD（領域驅動設計）（轉自：https://blog.csdn.net/bestcxx/article/details/106353819） 1. 程序員的角度非DDD: 結構體+set/get 2者放在實體層，喫飯等天生的方法放在

2020-07-01 17:09:57

怎樣挖掘用戶需求

需求分析在數據庫生命週期中至關重要，通常也是涉及人員最多的步驟。數據庫設計師在這個階段必須走訪最終用戶，與他們進行訪談，從而確定用戶想在系統中存儲什麼數據以及想怎樣使用這些數據。我們將需求分析分爲兩個步驟：1.理解用戶需求；2

2020-06-28 08:08:38

系統設計：關於高可用系統的一些技術方案-- 引用

引用學習地址如下： https://blog.csdn.net/hustspy1990/article/details/78008324

会弹钢琴的工程师

2020-06-28 04:03:43

6. 秒殺系統-影響性能的因素和提高系統性能的方法

影響性能的因素 “性能”，服務設備不同對性能的定義也是不一樣的，例如 CPU 主要看主頻、磁盤主要看 IOPS（Input/Output Operations Per Second，即每秒進行讀寫操作的次數）。我們討論的主要

2020-06-26 14:24:19

GUI 設計原則

1. 理解用戶要做什麼。典型的用戶界面設計都要進行任務分析來理解用戶任務的性質。 2. 讓用戶在系統的交互過程中有掌握控制權的感覺。無論何時用戶發起的交互都應該可以被取消。 3. 要提供多種方式來完成每個與界面相關的動作（例如關閉一個窗口

2020-06-26 13:17:20

需求分析注意事項

在談話過程中應該不時地停下來做養總結，測試一下你對問題的理解，熟悉和使用領域術語，並晝使談話氣氛保持輕鬆愉快。對你所不熟悉的領域術語，務必讓對方解釋清楚。不必擔心對方覺得你無知。你和他談話的目的正是要獲得業務知識，學習領域術語。畢竟在後

2020-06-26 13:17:20

ARTS 20190921 technique lambda 架構 wiki

wiki對lambda架構的解釋很簡明： https://en.wikipedia.org/wiki/Lambda_architecture 1.數據庫不覆蓋已有的數據，新數據加時間戳保存； 2.採用預計算+緩存的方式加速查詢； 3.對最

葛俊在新泽西

2020-06-26 05:11:00

24小時熱門文章

最新文章

最新評論文章