TiDB 在小紅書從 0 到 200+ 節點的探索和應用

作者介紹：張俊駿，小紅書數據庫與中間件團隊負責人

小紅書使用 TiDB 歷史可以追溯到 2017 年甚至更早，那時在物流、倉庫等對新技術比較感興趣的場景下應用，在 2018 年 5 月之後，我們就開始逐步鋪開，延展到其他適合 TiDB 的場景中去。截止目前，小紅書使用的 TiDB 節點數在 200+ 個，未來也有更大擴展空間。

本文根據近兩年 TiDB 在小紅書的落地過程，和大家一起探討一下，小紅書在新數據庫選型的考慮因素、以及 TiDB 從場景分類的角度是如何考量及逐步推廣使用的。具體包括以下內容：

目前小紅書數據服務整體架構，以及從數據流角度如何對不同數據庫服務進行定義和劃分。
從基本功能、數據同步、部署管理、運維、二次開發及優化、安全等多個維度解讀小紅書在數據庫選型的考慮因素及思考。
TiDB 的適用場景，以及在小紅書如何進行場景選擇、如何逐步進行上線規劃。

一、小紅書數據服務整體架構

如圖 1 所示，小紅書數據服務整體架構最上層是在線應用層（online app），應用層往下肯定會依賴一些離線（offline）或者在線（online）的 database（其實它更多的意義應該算存儲，比如 Redis 也被我們理解爲 database，所以稱之爲“數據服務”可能會更好），這些在線數據服務（online database）會有兩條線：

通過實時數據流（dataflow）將數據導入到離線數據庫（offline database）支撐離線分析以及實時展示的場景，也就是圖 1 最下層的展示類服務（presentation）和數倉（data warehouse）。
這些數據還可能會回灌到線上其他 database 上，有些是離線，有些是實時。

圖 1 藍框中的部分基本上都由我們團隊負責。我們首先需要保證在線數據庫（online database）的穩定性、安全性以及性能優化等，其次我們的多種數據庫數據同步服務（database to database replication）有點像阿里提出的 data replication center 這個概念，這部分也基本上由我們團隊全權負責。

二、小紅書數據服務組件選型 RoadMap

對於一個新的數據庫或數據服務組件選型（如 TiDB），我們該從哪些方面去入手搞清楚它的特性？下面分享一下我們的經驗。

1. 產品的基本功能

第一步，我們需要考察該數據服務/組件的基本功能，首先，我們要了解它的讀寫場景，包括點查、批量獲取（batch get）、範圍掃描（range scan）、過濾查詢（filter query）、聚合查詢（aggregation）等等。然後我們看看它是否符合響應時間（latency）以及帶寬（bandwidth，即能承接多少併發）的要求。最後我們會關注可擴展性，比如 TiDB 可能最大的特點就是擴展性非常好。這幾點是大家都會想到的最基本的要求，這裏我就一筆略過。

2. 數據同步與處理相關解決方案

第二部分是數據同步與處理相關解決方案。這裏我們有以下 4 點考慮：

首先考慮這個數據服務組件的數據同步是同構或異構的場景，同構的同步比如 Redis to Redis、MongoDB to MongoDB，異構的同步比如 TiDB 到 Kafka 等等。這個情況基本上大家也會遇到，因爲一個數據服務很難同時支持兩種或更多的場景，不同的數據服務之間的數據要保持一致，就會產生數據同步的問題。
接下來考察離線導出，比如如果我們依賴 Hive、 Spark 做離線分析，那麼可能要放在 HDFS、S3 等對象存儲上，就需要離線導出，一般是每天導出一次。
第三點是實時導出，即在實時場景下可能需要導出到消息中間件，比如 Kafka、RocketMQ 等。
第四點是離線導入，導入的場景一般是在離線的引擎計算的結果，作爲評估的指標再寫入線上的 database 提供數據服務。

3. 產品的部署及管理

部署其實非常重要，它涵蓋以下 5 個方面。

第一點是組件管理界面。當集羣多到一定程度時，如果你沒有一個很好的管理界面，會連自己用的是什麼集羣都記不清楚。所以管理界面非常必要，而且最初可能是 1 個集羣 1 個管理界面，然後是 100 個集羣 1 個管理界面。
第二點是選版本和機型。在版本選擇方面，不同版本提供的功能不一樣，同時也要考慮版本升級的成本。在機型的選擇方面，無論是自建機房、用雲主機，還是使用最近推出來的新概念“Bare-Metal”（裸金屬），機型選擇都是非常痛苦的事情，但同時機型選擇對存儲來說至關重要。我們目前絕大多數都是部署在騰訊雲和 AWS 上，並且開始慢慢嘗試在 Bare-Metal 上的應用。
第三點是監控、報警、日誌收集。我將這個問題分爲三個級別：機器級、應用級和業務級。機器級指機器主機上的問題，包括如何做監控、報警、日誌收集，雖然這點與該數據服務組件沒有太大關係，但是我們仍然需要關注；應用級指該數據服務組件的報警、監控、日誌收集具體是怎麼做的；業務級指特定的業務有特定的報警需求，例如一個訂單表突然有幾十萬的 QPS 寫入，在平時屬於異常的情況，這種異常是需要自定義的，甚至需要我們在某些特定位置埋點並輸出結論，因爲如果不關注這些異常情況，就很可能導致這三件事用三種不同架構，最後部署的集羣極其複雜繁瑣，三個級別用了三個不同的監控工具，看到三個不同的監控界面，導致運維成本增加。
第四點是跨區/跨雲部署。這一點可能是互聯網公司的比較大的需求。在遇到跨區/跨雲的部署的時候，需要考察該數據服務組件是否天生支持跨區/跨雲。如果不支持，需要再考慮是否需要再啓動數據同步。
第五點是考察附屬組件，也就是與該數據服務組件強綁定的其他組件，比如 zk、lb、jmx_exporter 等等，這些組件的部署成本也需要考慮。我們需要減少 OPS 成本，或者說，一個好的整體架構設計能夠防止業務瘋狂上線時很多意外的出現。

4. 運維的易用性

運維包括擴容、縮容、遷移，其中遷移可能要考慮跨區遷移、機型升級遷移等。在使用維護某個組件的時候會產出“XX 組件的運維手冊”，這樣下次遇到問題的時候，可以先去看看運維手冊裏它是否是一個已知問題，有沒有現成的解決方案。在公司人員變動比較頻繁或者業務方直接介入到這個場景的時候，如果沒有運維手冊，有些項目很難落地。

5. 產品可優化的空間

優化部分基本上分爲配置調優、客戶端代碼調優、二次開發、三次開發。其中二次開發就是在現有的開源產品上再開發，修復 bug 或者自己實現某些新增功能/工具，未來可能還會貢獻給社區；而三次開發則是自己寫一個和某些組件類似的東西，直接替換掉。在小紅書內部，二次開發是比較主流的，三次開發很少，畢竟從零開始自研一個組件到適應特定業務場景，其實是跟不上我們的業務上線節奏的，所以三次開發至少眼下不適合作爲我們主要的攻堅方向。

6. 其他考慮因素

未來在小紅書數據服務組件系統，我們會做很多完善工作，比如安全、審計、服務化、容器化等方面的事情。譬如我們目前在部署一個組件的時候，容器化還沒有在討論範圍之內，也就是需要用容器部署就容器部署，需要在虛擬機上部署就在虛擬機上部署，並沒有一個明確的結論傾向。當然，我個人認爲未來容器化是一個主流趨勢。

以上就是小紅書的數據服務組件選型的 RoadMap，看起來跟接下來要講的“TiDB 在小紅書多場景下的應用”沒有太大的關係，但我認爲在做應用之前應該先把上面列舉的這些方向思考清楚，這樣會對未來落地工作的投入產出比產生非常大的影響，比如我們最近按照上面的方向調研 Tidis 和 TiFlash 的時候速度就快很多。

三、TiDB 在小紅書多場景下的應用

場景 1：展示類業務

TiDB 在小紅書的第一個應用場景是展示類業務，它的 pipeline 如圖 4 中紅色部分所示，線上一般是 MongoDB 或者 MySQL，通過一條實時數據流（realtime dataflow）連接 Redis 或者 TiDB，最後實現 presentation 功能。接下來介紹這類場景下的兩個具體項目。

項目 1：大促實時看板

第一個項目是大促實時看板，在去年雙十一期間上線，當時我們的節奏也比較快，7、8 月開始調研，11 月就上大促業務。

當時該項目下一共有 8 個實時報表，QPS 寫入均值 5K，大促活動開始時 QPS 峯值接近 200K/秒，每過 2s 會有較大的聚合查詢 query，聚合結果還需要寫入 Redis 再 pop 到 TiDB，集羣規模方面只用了 10 個 TiKV 和 3 個 PD。還有一點值得提一下，當時每個節點掛了 3.5T * 4 塊的 NVME SSD，但是後來事實證明這個選型是有問題的，因爲大促的時候我們人人都在盯着，磁盤壞了會立刻得到解決，所以即使把四塊盤做了 raid0，然後上線了，根本無法確定 NVME 盤出問題的概率是多少，後來差不多每個月會出現一兩次類似的故障，故障率很高，雖然我相信未來 NVME 會做得更好，但這樣高的故障率從設計角度來看，這個選型就未必是最合適的。

在實現上，我們遇到的第一個問題是保證最終一致性的寫入。我們做了多線程寫入，每個線程寫入特定的記錄，保證線程之間不會衝突。除此之外，我們還做了一些調優工作，我們發現每一個事務的 batch insert size 設置爲 100 時能達到吞吐、延遲綜合最優的要求。最初業務側設置的 batch size 非常大，後來發現事務之間衝突的概率、響應的時間等等都會出現一些問題，但 batch size 設置爲 1，那麼併發又會成爲一個問題。所以經過了一段時間的調優，最後得到了前面的結論。這個參數大家可以根據需求自己調整，用二分法/摺紙法試驗就可以得到。

這個項目最終全程寫入和查詢在大促期間保持穩定，寫入時延小於 20ms，查詢時延小於 1s，因爲我們需要 2s 做一次查詢，這個響應時間是能滿足要求的。

項目 2：實時業務數據展示

這個項目背景有兩點：

第一，我們業務方有實時分析的需求，需要實時觀測線上庫寫入內容，可能是針對某個用戶做一些查詢，還可能是一個非常大的 query，比如需要快速看到新上線功能的效果，尤其是在實驗以及風控等項目上響應時間要求非常高。
其次需要作爲離線 ETL 任務的數據源，同時需要預備改爲線上服務。盤算一下業務量，總共支持需要超過一百個 MongoDB 或 MySQL 數據庫的實時展示，峯值總讀寫 QPS 超過 500K，現在的業務需求大概這個量級，未來可能會更高。

我們當前考慮是按業務線去拆分集羣，部分核心表一式多份。比如用戶表可能有多個業務依賴，比如社區業務、訂單物流業務等等，但如果按照業務線拆分集羣之後，就無法做 Join 了，這也是我們不能接受的，所以對核心表會以一式多份的形式存在。實際使用場景下，大部分都是點查，比如查特定用戶、特定訂單的線上狀態，同時有少量的單表聚合查詢和跨表 Join 查詢。換句話說，可以認爲是一個實時的數據倉庫，但又不做複雜 ETL，更多依賴線上真實數據。

我們的設計方案是把 TiDB 作爲一個 MySQL/MongoDB 的從庫，但對於 MongoDB 來說可能還要做一點同步任務的數據改造工作。現在規模是 10 節點 TiKV + 3 節點 PD 的集羣總共有 3 個，後面可能會按需求擴增。

在實踐細節上，首先我們會基於 Canal 去做 oplog/binlog 的實時同步。其次，目前我們對加列之外的 DDL 支持得不夠好，這部分還需要 DBA 手工介入，但在未來會有一些改進。最後是多租戶問題，比如判斷某個部門的同事是否有權限訪問另一個部門的數據庫，這件事在線上會非常頭疼，現在在接入層解決這個問題，我們內部有一個叫 venus 的展示平臺，將上層全鏈控制、認證等事情去掉，所以我們就不用關注這件事了，至少眼下不用關注。這個項目已經開始逐步上線，基本上架構已經確定。

場景 2：分析類業務

分析類業務的 pipeline 如圖 7 所示，最後的 data warehouse 構建在 AWS 上。

項目 3：分庫分表 MySQL ETL

這個場景下的第一個項目是做分庫分表的 MySQL ETL。以最大的表爲例，上游 10 節點的MySQL，共計 10000 個分表，存量數據 1000 億條左右，每日增量 10 億+，QPS 寫入均值 3000 條/s，峯值接近 10000 條/s，平臺促銷活動對這部分影響也不大，甚至反而會降低，因爲活動主要是電商部門在做，社區的查詢需求反而變少。我們在 TiDB 離線庫保留了大約 30 天增量監控數據，全量數據存在 S3 上，每日夜間（白天偶爾）會有基於 sqoop 的抽數任務觸發。集羣規模方面，目前使用 10 節點 TiKV + 3 節點 PD。

在實踐細節方面，首先我們對 MySQL 自增 ID 進行了處理，然後對 sqoop 進行了一些基於 TiDB 的細節上適配，最後調整 TiDB 的 max transaction size 以優化抽取率。除此之外，還有一個值得一提的事情，因爲實體數據（用戶/筆記/訂單數據等）不宜硬刪除，但是在 MySQL 關係表做軟刪除是非常可怕的事情，最後可能會因爲數據量太過於龐大造成雪崩。但 TiDB 不一樣，我們把線上的硬刪除變成了 TiDB 的軟刪除，這對於數倉來說是非常有價值的事情。對於每天全量抽數的表來說，無論軟硬刪除，第二天數倉裏的數據總是對的。但是對於大數量的場景，全量抽數代價過高，就會採取增量抽取的方式，即設置一個條件，一般是 update_time 爲今天。這時候硬刪除就存在問題了：上面的 query 條件無法判斷一條記錄究竟是被刪除了，還是在當天沒有被更新。而前面又提到，關係表上是不適合做軟刪除的。所以我們在做 ETL 的時候，線上做 delete 的操作，我們在 TiDB 上會新增一個 is_deleted 字段，並將其設置爲 true。這個時候有一個小細節，刪除這個操作的時間戳怎麼設置。刪除這個操作時的時間戳是跟普通寫入的時間戳不一樣的。普通的寫入，時間戳就是線上庫的 update time，但是刪除的時候是不會帶上線上的 update_time 的，所以因爲這條記錄被硬刪除了，時間戳都找不到了，這時我們只能用收到這條消息的 update_time 去做它的時間戳，這時就會有些小問題，當然這個問題我們還沒有完全解決掉，假設大家有類似的需求的話，我們可以私下交流討論。目前這個項目已經上線，運行穩定。

項目 4：MySQL 歸檔

項目 4 MySQL 歸檔是基於項目 3 的演進。業務背景方面，以最大的表爲例，主要爲物流倉儲部門的訂單及衍生信息，存量非常非常大，每月進行歸檔到 TiDB 的數據有數十億，但對 QPS 要求不是很高，與業務方討論之後暫定，過去一年半的記錄存放在 TiDB 供業務方查詢，更久遠的記錄歸檔到 S3/Cos 上。

項目 4 與項目 3 代碼相比處理的場景更復雜一些，因爲它之前 MySQL 的分庫分表邏輯不像項目 3 那些清晰，集羣規模也會相對大一些，目前是 25 個 TiKV 節點 + 3 個 PD 節點，未來可有擴容的需求。實現細節上，項目 4 和項目 3 類似，這裏就不贅述了。

場景 3：線上服務

TiDB 接入實時數據寫入服務的業務有以下四個考慮：

第一點是代碼更改成本，這一項成本已經比較低了，因爲基本上都是 jdbc 連接，但多多少少會有一些變更。
第二點是數據遷移成本，對於已經上線的業務來說，遷移數據都是一件非常費勁的事情，尤其是我們還要求不停服務進行熱遷移的話。
第三點是運維成本，從原本的 MySQL 切換到我們自己維護 TiDB ，其實無形中增加了運維成本，尤其是在掛盤率比較高的場景下。
第四點是技術棧成本，因爲有些人對 TiDB 不熟悉，會比較害怕接觸和使用，絕大部分人更願意用自己熟悉的東西，所以需要有一個知識學習的過程，這也是一個成本。

現在我們已經有一部分線上業務從 Hive 離線導入到 TiDB 做 T+1 級別數據服務，而且我們新上線業務的關係型數據庫選型已經開始傾向於 TiDB，主要是因爲它的擴展性爲我們節省了很大的時間成本，尤其是業務增長比較快的情況下，選擇 MySQL 分庫分表其實是一件代價極其大的事情。

我記得之前有同事問了一個問題，說這個場景用別的東西也可以做，爲什麼一定要用 TiDB 呢？爲什麼要用牛刀來殺一隻雞呢？我回答他：有種情況是你找不到一隻牛來殺，只能先“殺雞”成功了，未來纔有“殺牛”的機會，但是大家不要認爲“殺雞用牛刀”是一件很蠢事情，這可以理解爲一個鑑定或者測試的過程。

四、未來 TiDB 在小紅書的接入計劃

最後分享一下 TiDB 未來在小紅書的接入方向。

首先在 ETL 方面，TiDB 的事務隔離性對某些場景來說有點高，我們希望能自定義事務隔離需求，比如兩個事務有衝突，但我們實際的寫入需求只要最終一致性。但是從目前 TiDB 的設計來說，這個需求可能比較困難，但是也不排除將這個事情 raise 起來的可能性。
第二個很重要的事情是跨數據中心的部署，這是我們未來會重點關注的方向，可能最終會得到一個通用的解決方案，目前的規劃還不是特別明晰，因爲未來業務可能在不同的雲會有不同的形態，我們也希望能找到成本相對更低的解決方案。
第三點是自動化運維，目前是往 TiDB + K8s 的方向推動，更好的解決集羣部署問題，因爲在虛機上部署還是比較痛苦的。
最後，我們已經有同事負責調研 TiFlash、Tidis，但目前還沒有線上應用在依賴。同時我們也在做 CK 和 TiFlash 的對比調研，目前 CK 已經在線上提供服務，未來如果 TiFlash 的調研結論是比較優秀的，肯定也會有計劃替換。

本文根據張俊駿老師在 TiDB TechDay 2019 上海站上的演講整理。

更多案例閱讀：https://www.pingcap.com/cases-cn/

TiDB 在小紅書從 0 到 200+ 節點的探索和應用

一、小紅書數據服務整體架構

二、小紅書數據服務組件選型 RoadMap

1. 產品的基本功能

2. 數據同步與處理相關解決方案

3. 產品的部署及管理

4. 運維的易用性

5. 產品可優化的空間

6. 其他考慮因素

三、TiDB 在小紅書多場景下的應用

場景 1：展示類業務

項目 1：大促實時看板

項目 2：實時業務數據展示

場景 2：分析類業務

項目 3：分庫分表 MySQL ETL

項目 4：MySQL 歸檔

場景 3：線上服務

四、未來 TiDB 在小紅書的接入計劃

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Explore the Sky丨來 TiDB Hackathon 2021 探索無限可能

成爲一棧式數據服務生態： TiDB 5.0 HTAP 架構設計與成爲場景解析

Async Commit 原理介紹

In Community We Trust

數據庫領域正在發生鉅變，從 TiDB 5.0 發佈會看未來的數據庫發展趨勢

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結