原创 3月26日Spark社區技術直播【Office Depot利用Analytics Zoo構建智能推薦系統的實踐分享 】

主題:Office Depot利用Analytics Zoo構建智能推薦系統的實踐分享時間:2020.3.26(週四)19:00參與方式:掃描下方二維碼加入釘釘羣,羣內直接觀看或點擊直播間鏈接:https://developer.aliyu

原创 Spark 3.0 終於支持 event logs 滾動了

背景相信經常使用 Spark 的同學肯定知道 Spark 支持將作業的 event log 保存到持久化設備。默認這個功能是關閉的,不過我們可以通過 spark.eventLog.enabled 參數來啓用這個功能,並且通過 spark.e

原创 Delta Lake,讓你從複雜的Lambda架構中解放出來

作者介紹李瀟,現就職於 Databricks,管理兩跨國團隊,專注於 Apache Spark, Databricks Runtime 和 Koalas 的開發和建設。他是 Apache Spark 項目管理委員會成員。本科畢業於南京理工大

原创 【譯】Databricks使用Spark Streaming和Delta Lake對流式數據進行數據質量監控介紹

原文鏈接:https://databricks.com/blog/2020/03/04/how-to-monitor-data-stream-quality-using-spark-streaming-and-delta-lake.html

原创 核桃編程Delta Lake實時數倉應用實踐

作者:盧聖剛,核桃編程數據架構師,擁有多年的大數據開發和架構經驗。曾擔任易觀數據挖掘工程師,熊貓TV大數據架構師。核桃編程簡介核桃編程成立於2017年8月9日,作爲少兒編程教育行業的領導者,始終秉持“讓每個孩子愛學習、會學習,讓優質的教育觸

原创 深入探討HBASE

HBASE基礎1. HBase簡介HBase是一個高可靠、高性能、面向列的,主要用於海量結構化和半結構化數據存儲的分佈式key-value存儲系統。它基於Google Bigtable開源實現,但二者有明顯的區別:Google Bigtab

原创 Python搭建新冠肺炎預測模型全解讀

新冠病毒疫後復工成爲當務之急,然而病毒尚未消散,風險權衡面臨不確定因素,如果可以準確預測未來的疫情走勢,將會爲復工計劃的制定提供有效輔助。傳統機器學習模型雖然可以精確擬合曆史數據,但由於脫離疾病傳播機理,外推預測的可靠性低。另一方面,傳染病

原创 Hive性能優化(全面)

作者:浪尖原文鏈接本文轉載自公衆號:Spark學習技巧1.介紹首先,我們來看看Hadoop的計算框架特性,在此特性下會衍生哪些問題?數據量大不是問題,數據傾斜是個問題。jobs數比較多的作業運行效率相對比較低,比如即使有幾百行的表,如果多次

原创 Spark 數據傾斜及其解決方案

作者簡介:鄭志彬,畢業於華南理工大學計算機科學與技術(雙語班)。先後從事過電子商務、開放平臺、移動瀏覽器、推薦廣告和大數據、人工智能等相關開發和架構。目前在vivo智能平臺中心從事 AI中臺建設以及廣告推薦業務。擅長各種業務形態的業務架構、

原创 通過Spark Streaming作業處理Kafka數據

本節介紹如何使用阿里雲E-MapReduce部署Hadoop集羣和Kafka集羣,並運行Spark Streaming作業消費Kafka數據。前提條件已註冊阿里雲賬號,詳情請參見註冊雲賬號。已開通E-MapReduce服務。已完成雲賬號的授

原创 實踐Hadoop MapReduce 任務的性能翻倍之路

作者:李萬雪, eBay軟件開發工程師,2017年畢業於上海交通大學。目前負責日誌在大數據平臺上的分析和opentracing在ebay日誌平臺的實現。原文鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MD

原创 60TB 數據量的作業從 Hive 遷移到 Spark 在 Facebook 的實踐

Facebook 經常使用分析來進行數據驅動的決策。在過去的幾年裏,用戶和產品都得到了增長,使得我們分析引擎中單個查詢的數據量達到了數十TB。我們的一些批處理分析都是基於 Hive 平臺(Apache Hive 是 Facebook 在20

原创 Spark整合Ray思路漫談

作者:祝威廉,資深數據架構,11年研發經驗。同時維護和開發多個開源項目。擅長大數據/AI領域的一些思路和工具。現專注於構建集大數據和機器學習於一體的綜合性平臺,降低AI落地成本相關工作上。什麼是Ray之前花了大概兩到三天把Ray相關的論文,

原创 Delta Lake 0.5.0 正式發佈,支持包括 Hive/Presto 等多種查詢引擎

Delta Lake 0.5.0 於2019年12月13日正式發佈,正式版本可以到 這裏 下載使用。這個版本支持多種查詢引擎查詢 Delta Lake 的數據,比如常見的 Hive、Presto 查詢引擎。併發操作得到改進。當然,這個版本還

原创 【譯】Hadoop發生了什麼?我們該如何做?

原文:https://insidebigdata.com/2019/08/10/what-happened-to-hadoop-and-where-do-we-go-from-here/Apache Hadoop出現在IT領域是在2006年