原创 EMR 升級Hadoop 2.8.5

信息摘要: EMR 提供Hadoop 2.8.5,方便開發者使用新版Hadoop功能。適用客戶: 所有客戶版本/規格功能: EMR-3.18.0及以後版本,Hadoop升級爲2.8.5,開發者可以方便地使用新版Hadoop的功能。產品文檔:

原创 EMR 最新版 EMR-3.22.0 發佈

信息摘要: EMR 升級到 EMR-3.22.0,包含多項重大更新及新增組件。適用客戶: 所有客戶版本/規格功能: EMR-3.22.0 發佈多項重大更新,新增包括 Kudu、OpenLDAP,Spark新增支持 delta datasou

原创 使用EMR-Kafka Connect進行數據遷移

作者:雲魄,阿里雲E-MapReduce 高級開發工程師,專注於流式計算,Spark Contributor1.背景流式處理中經常會遇到Kafka與其他系統進行數據同步或者Kafka集羣間數據遷移的情景。使用EMR Kafka Connec

原创 【譯】數據湖正在成爲新的數據倉庫

原文鏈接 https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html?upd=1561666042410 像

原创 【譯】Spark-Alchemy:HyperLogLog的使用介紹

> 原文鏈接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] **譯者:辰石,阿里巴巴計算平臺事業部EMR團隊技術專家

原创 從數磚開源 Delta Lake 說起

作者:鄭鍇,花名鐵傑,阿里巴巴高級技術專家,Apache Hadoop PMC,Apache Kerby 創立者。深耕分佈式系統開發和開源大數據多年,先後專注在安全,存儲和計算領域。之前在 Intel,目前轉戰阿里雲上,致力於提供更好用更有

原创 Spark+Alluxio性能調優十大技巧

本文章轉載於:https://zhuanlan.zhihu.com/p/54245707 由於統一訪問對象存儲(如S3)和HDFS數據的場景的出現和普及,Apache Spark結合Alluxio的大數據棧越來越受歡迎。此外,越來越流