原创 Akka Actor及其在商業智能數據服務中的應用

序eBay作爲一家互聯網電商,有海量的商品交易數據和豐富的數據分析及應用場景。其中,服務於商業智能 (BI) 的數據集,往往根據業務部門的需求及數據本身的特點,以結構、半結構化等形式存在於多個分離異構的數據平臺。目前大數據領域已經湧現了衆多

原创 eBay雲計算“網”事|網絡重傳篇

#導讀 在之前的eBay雲計算“網”事|網絡超時篇和eBay雲計算“網”事|網絡丟包篇裏,我們針對Linux 主機網絡中常見的延時和丟包問題進行了分析。本篇將關注網絡中另外一個常見的問題: 重傳 。在網絡環境中,重傳率的高低往往直接影響到

原创 平臺遷移那些事 | eBay百億級流量遷移策略

導讀“平臺遷移那些事”是eBay CCOE EEE (Engineering Ecosystem and Experience) 團隊最新推出的系列文章,本文爲總起篇。從V3平臺的陳舊應用無縫轉移到eBay最新的Raptor.io平臺,該項

原创 BERT在eBay推薦系統中的實踐

導讀 推薦系統是電子商務平臺的重要組成部分。然而許多傳統的推薦系統存在冷啓動、內容單一等缺陷。針對這類問題,eBay的研究員以BERT模型爲基礎,結合用戶歷史行爲數據,提出了一種基於項目的協同過濾算法。該模型在大規模真實數據集上取得了顯著

原创 eBay雲計算“網”事:網絡超時篇

導讀 eBay自2016年開始將業務遷往Kubernetes容器平臺,其間遇到了各種網絡問題。雲計算“網”事系列旨在介紹 eBay IE Cloud團隊 巧妙利用eBPF工具進行排查,並解決這些典型網絡問題的事蹟。該系列分爲三篇: 網絡超

原创 eBay流量管理之負載均衡及應用交付

1. HLB基本介紹 在網絡安裝中,硬件負載均衡器(HLB)一般安裝在服務器前面,作爲客戶端和服務器之間的透明代理,在請求轉發到服務器前進行流量管理。 一般而言,在基於TCP代理的負載均衡技術實現中,客戶端與服務器的請求通信過程如下: 1

原创 由Decimal操作計算引發的Spark數據丟失問題

一、症狀 一天,金融分析團隊的同事報告了一個問題,他們發現在兩個生產環境中(爲了區分,命名爲環境A和B), Spark大版本均爲2.3。但是,當運行同樣的SQL語句,對結果進行對比後,卻發現兩個環境中有一列數據並不一致。此處對數據進行脫敏,

原创 超越“雙十一”—— ebay百萬TPS支付賬務系統的設計與實現

導讀 2018年,ebay全面展開了下一代百萬TPS支付賬務系統的設計與實現。本文主要介紹核心賬務系統的性能和容災能力,將從賬務系統簡介、百萬TPS壓測實驗、系統架構分析、開源計劃四個方面進行闡釋。希望能給同業人員一定啓發和借鑑。 1. 序

原创 eBay Kubernetes集羣的存儲實踐

如今,eBay已在內部廣泛使用Kubernetes作爲容器管理的平臺,並自研了AZ和聯邦級別的控制平面,用以負責50多個集羣的創建、部署、監控、修復等工作,並且規模在不斷擴大。 我們的生產集羣上,針對各種應用場景,大量使用了本地存儲和網絡存

原创 JVM元數據區的內存泄漏之謎

一、問題描述 某天,SRE部門觀察到一個非常重要的應用裏面有一臺服務器的業務處理時間(Transaction time)在某個時間點變爲平時的3倍。雖然只持續了短暫的2秒,但是如果觀察其一週的指標曲線,就會發現在這一週之內,同應用的其它服務

原创 eBay PB級日誌系統的存儲方案實踐

CAL(Central Application Logging) 系統主要負責收集和處理eBay內部各個應用程序池的日誌,日處理超過3PB的數據,供運維團隊和開發團隊日常監控使用。 CAL系統通過HTTP接口接受應用產生的日誌,將日誌持久化

原创 挖掘應用處理變慢的“真相”

一、發現問題 一個風和日麗的下午,服務於億級用戶電商平臺的監控系統Sherlock.IO上,突然出現了黃色告警。發出告警的是一個包裹配送相關的應用,幾分鐘之內這個應用前端的負載均衡服務器(Load Balancer)上連接數量陡增,這引起了

原创 SRE高延遲問題的罪魁禍首System.gc()

01 案例一: 某日,支付平臺的開發人員找到SRE,需要SRE幫助解決一個棘手的問題。他們發現一個調用第三方支付接口的應用裏面,偶爾出現請求超時的情況。第三方平臺保證他們的服務99%在10秒內完成,算上網絡傳輸時間,15秒足夠了,儘管支付平

原创 基於kubernetes的VM解決方案探討

一、背景 eBay從2015年就開始適配kubernetes平臺並逐漸部署各個團隊的產品。然而eBay仍然部署着很大規模的OpenStack集羣。同時管理kubernetes集羣和OpenStack集羣需要耗費更多的人力和物力。但由於eBa

原创 容器運行時從docker到containerd的遷移

容器運行時(ContainerRuntime),運行於kubernetes(k8s)集羣的每個節點中,負責容器的整個生命週期。其中docker是目前應用最廣的。隨着容器雲的發展,越來越多的容器運行時涌現。爲了解決這些容器運行時和k8s的集成