開源大數據週刊-第99期

資訊

技術

  • 爲什麼已有Kafka,我們最終卻選擇了Apache Pulsar?
    本文主要介紹了一家商業公司在使用 Kafka 作爲事件總線時遇到的問題,主要是性能、可擴展性以及一些技術性限制。比如 Kafka Broker 是綁定存儲狀態的,擴展或縮小 Kafka 集羣需要重新平衡分區,而 Pulsar Broker 是無狀態的,真正的做到了計算和存儲分離。Pulsar 還有一些其他的優點。這篇文章可以說是消息系統選型的一個良好案例。
  • 先過濾後解析:斯坦福開源數據解析引擎Sparser,解析提速22倍
    很多大型數據應用程序通常在非結構化或半結構化的原始數據格式(如 JSON)上運行。查詢這些文件常常是非常耗時的,尤其是那些探索性應用程序,數據科學家用來運行查詢以探索及更好地理解其數據。令人驚訝的是,這些應用程序實際上有 80%-90% 的執行時間是用於解析數據,而不是用於評估實際查詢本身。因此,解析實際上纔是瓶頸。這篇文章介紹了介紹 Sparser,一個來自斯坦福 DAWN 團隊的一個研究項目,該項目解決了這個性能瓶頸。
  • Apache Flink狀態管理和容錯機制介紹
    本文詳細介紹了Flink的狀態管理和容錯機制,內容包括有狀態的流數據處理、Flink中的狀態接口、狀態管理和容錯機制實現等。
  • Apache HBase中等對象存儲MOB壓縮分區策略介紹
    Apache HBase 中等對象存儲(Medium Object Storage, 下面簡稱 MOB)的特性是由 HBASE-11339 引入的。該功能可以提高 HBase 對中等尺寸文件的低延遲讀寫訪問(理想情況下,文件大小爲 100K 到 10MB),這個功能使得 HBase 非常適合存儲文檔,圖片和其他中等尺寸的對象。本文對這一特性進行了詳細的介紹。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章