原创 一週一論文(翻譯)——[VLDB 19] Minimizing Cost by Reducing Scaling Operators in Distributed Stream Processing

Abstract 彈性分佈式流處理系統能夠動態地適應工作負載的變化。通常,這些系統通過向上或向下擴展來對輸入數據的速率或資源利用水平做出反應。目標是優化系統的資源使用,從而降低其運營成本。但是,這種擴展操作會自行消耗資源,從而爲每個擴展操

原创 一週一論文(翻譯)——[ICDCS 15] DRS: 在快速流下實時計算分析的動態資源調度系統

Abstract 在數據流管理系統(DSMS)中,用戶註冊連續查詢,並在數據到達和到期時接收結果更新。 我們專注於具有實時約束的應用程序,其中用戶必須在更新發生後的給定時間段內接收每個結果更新。 爲了處理快速數據,DSMS通常位於雲基礎架

原创 一週一論文(翻譯)——[SIGMOD 19] Elasticutor:Rapid Elasticity for Realtime Stateful Stream Processing

Abstract 彈性非常適用於流系統,以保證針對工作負載動態的低延遲,例如到達率的激增和數據分佈的波動。現有系統使用以resource-centric的方法實現彈性,該方法在並行實例(即執行程序)之間重新分配Key,以平衡工作負載和擴展

原创 一週一論文(翻譯)——[IEEE 14] Elastic scaling for data stream processing

Abstract 本文討論與通用分佈式數據流處理應用程序的自動並行化相關的盈利問題。自動並行化涉及在應用程序的數據流圖中定位區域,這些區域可以在運行時複製以應用數據分區,以實現擴展。爲了使自動並行化在實踐中有效,需要回答盈利問題:有多少並

原创 一週一論文(翻譯)——[PVLDB 17] Dhalion: 基於Heron自適應調整的流處理系統

Abstract 近年來,大規模實時分析需求激增,並且已開發出大量流處理系統來支持此類應用。 即使遇到硬件和軟件故障,這些系統也能夠繼續進行流處理。 然而,這些系統並未解決其Operator面臨的一些關鍵挑戰:手動,耗時且容易出錯的調整各

原创 一週一論文(翻譯)——[Acta 1996] The Log-Structured Merge-Tree (LSM-Tree)

Abstract 高性能事務系統通常會通過向一個歷史表中插入記錄以追蹤各項活動行爲;與此同時事務系統也會因系統恢復的需要而生成日誌記錄。這兩種類型的生成信息都可以從高效的索引方式中獲益。衆所周知的一個例子,TPC-A benchmark{

原创 NIO詳解(四):NIO編程

1. NIO類庫簡介 1.1 緩衝區Buffer Buffer是一個對象,它包含了一些要寫入或者要讀出的數據。在NIO類庫中加入Buffer對象,體現了新庫和原來I/O的一個重要區別。在NIO庫中,所有的數據都是用緩衝區處理的。在

原创 NIO詳解(十三):Java IO 和NIO 總結

1. 概述 下面總結了Java NIO和IO之間的主要差別 IO NIO 面向流 面向緩衝 阻塞IO 非阻塞IO 無 選擇器 2. Java IO和 NIO的主要區別 2.1 面向流和麪向緩衝區 Java

原创 NIO詳解(九):Selector詳解

1. 概述 Selector(選擇器)是Java NIO中能夠檢測一到多個NIO通道,並能夠知曉通道是否爲諸如讀寫事件做好準備的組件。這樣,一個單獨的線程可以管理多個channel,從而管理多個網絡連接。 在I/O編程中,當需要同

原创 Netty詳解(五):Netty TCP粘包 拆包

1. 概述 無論是服務端還是客戶端,我們讀取或者發送消息的時候,都需要考慮TCP底層的粘包和拆包機制。下面我們來通過Netty來詳解TCP底層的粘包和拆包機制。 2. TCP底層的粘包和拆包機制 TCP是一個“流”協議,所謂流,就

原创 Netty詳解(四):Netty 整體架構

1. 概述 Netty是JBoss出品的高效的Java NIO開發框架,本文將主要分析Netty實現方面的東西。 Netty總體架構圖: 2. Buffer org.jboss.netty.buffer包的接口及類的結構圖如下:

原创 Netty詳解(二)Linux 網絡IO模型

1. Linux I/O基礎知識 針對linux操作系統而言,將最高的1G字節(從虛擬地址0xC0000000到0xFFFFFFFF),供內核使用,稱爲內核空間,而將較低的3G字節(從虛擬地址0x00000000到0xBFFFFF

原创 Netty詳解(七):Netty 編解碼以及消息頭編解碼器

1. MessagePack 概述 MessagePack是一個高效的二進制序列化框架,像JSON一樣支持不同語言間的數據交換,速度更快,序列化之後的碼流更小。 MessagePacke優點 編解碼高效,性能高 序列化後的碼流

原创 一週一論文(翻譯)——[SIGMOD 2015] TIMELY RTT-based Congestion Control for the Datacenter

本文主要解決的問題是在,基於優先級的擁塞控制PFC是一種粗粒度的機制,它主要是通過檢測優先級隊列的長度是否超過閾值,然後再發送PFC擁塞信號幀來進行流量控制。這種做法會帶來不公平性以及行頭阻塞等問題。作者表明,單的數據包延遲(以主機的往返

原创 一週一論文(翻譯)——[SIGMOD 2015] Congestion Control for Large-Scale RDMA

本文主要解決的問題是在RoCEv2體系中,基於優先級的擁塞控制PFC是一種粗粒度的機制。 它在端口(或端口加優先級)級別上運行,並且不區分流。PAUSE機制是基於每個端口(和優先級)的,而不是基於每個流的。 這將導致Unfairness和