原创 大數據實時流計算平臺Spark Streaming二次封裝開源框架源碼分享

一個完善的Spark Streaming二次封裝開源框架,包含:實時流任務調度、kafka偏移量管理,web後臺管理,web api啓動、停止spark streaming,宕機告警、自動重啓等等功能支持,用戶只需要關心業務代碼,無需關注

原创 spark 發展史,最近迎來 3.0 時代

注:以下圖片均引用自2019年阿里雲棲大會 Spark發展史 1 動態分區(Dynamic Partition Pruning) 在3.0以前,spark是不支持動態分區的,所謂動態分區就是針對分區表中多個表進行join的時候,在on後

原创 如何用Spark進行數據分析

小編和大家分享一下Spark是什麼?如何用Spark進行數據分析,對大數據感興趣的小夥伴就隨着小編一起來了解一下吧。 如何用Spark進行數據分析 什麼是Apache Spark? Apache Spark是一個爲速度和通用目標設計的集

原创 大數據技術學習:如何銜接Spark 和Tensorflow?

001、Spark&Tensorflow 我們知道,Spark 目前是大數據處理組件的王者,實現了讓大數據處理更輕鬆的遠景。Tensorflow則是深度學習當之無愧最熱的框架。而在現實當中,Spark 和Tensorflow的銜接往往是脫

原创 PySpark和大數據處理初探

由於數據量太大而不能在一臺機器上進行處理這樣的情況已經越來越常見了。幸運的是,已經有Apache Spark、Hadoop等技術被開發出來,去解決這個確切的問題。這些系統的強大功能可以直接在Python中使用PySpark來發掘! 有效地

原创 大數據實戰丨如何快速搭建一個自己的Spark分佈式架構

從零開始搭建我們的Spark平臺 1、準備centeros環境 爲了搭建一個真正的的集羣環境,並且要做到高可用的架構,我們至少準備三個虛擬機來作爲集羣節點。因此我購買了三臺阿里雲的服務器,來作爲我們的集羣節點。   注意到,master

原创 PySpark初級教程——大數據分析(附代碼實現 )

簡介 我們正在以前所未有的速度生成數據。老實說,我跟不上世界各地裏產生的巨大數據量!我敢肯定你已經瞭解過當今時代數據的產量。McKinsey, Gartner, IBM,等公司都給出了他們公司的數據。 這裏有一些令人難以置信的數字供你參考

原创 尋找數據統治力:比較Spark和Flink

當提及大數據時,我們無法忽視流式計算的重要性,它能夠完成強大的實時分析。而說起流式計算,我們也無法忽視最強大的數據處理引擎:Spark和Flink。 Apache Spark自2014年以來迅速普及。它提供了一個適用常見數據處理場景的統一

原创 Spark生態圈簡介

Spark 生態圈是加州大學伯克利分校的 AMP 實驗室打造的,是一個力圖在算法(Algorithms)、機器(Machines)、人(People)之間通過大規模集成來展現大數據應用的平臺。 AMP 實驗室運用大數據、雲計算、通信等各種

原创 新手福利:Apache Spark入門攻略

【編者按】時至今日,Spark已成爲大數據領域最火的一個開源項目,具備高性能、易於使用等特性。然而作爲一個年輕的開源項目,其使用上存在的挑戰亦不可爲不大,這裏爲大家分享SciSpike軟件架構師Ashwini Kuntamukkala在D

原创 深度預警:Spark運行原理

本文主要分以下章節: 一、Spark專業術語定義 二、 Spark的任務提交機制 一、Spark專業術語定義 1、Application:Spark應用程序 指的是用戶編寫的Spark應用程序,包含了Driver功能代碼和分佈在集羣中多個

原创 30分鐘理解Spark的基本原理

01 Spark優勢特點 作爲大數據計算框架 MapReduce 的繼任者,Spark 具備以下優勢特性。 01 高效性 不同於 MapReduce 將中間計算結果放入磁盤中,Spark 採用內存存儲中間計算結果,減少了迭代運算的磁盤 I

原创 Spark Streaming編程模型

DStream 的操作流程 DStream 作爲 Spark Streaming 的基礎抽象,它代表持續性的數據流。這些數據流既可以通過外部輸入源來獲取,也可以通過現有的 DStream 的 Transformation 操作來獲得。 在

原创 零基礎學大數據開發,Spark 學習資源分享

本系列是基於目前最新的 spark 1.6.0 系列開始的,spark 目前的更新速度很快,記錄一下版本好還是必要的。 來源:segmentfault     1. 書籍 Learning Spark Mastering Apach

原创 Hadoop Spark:全面比拼(架構、性能、成本、安全)

每年,市場上都會出現種種不同的數據管理規模、類型與速度表現的分佈式系統。在這些系統中,Hadoop和Spark是獲得最大關注的兩個。然而該怎麼判斷哪一款適合你? 如果想批處理流量數據,並將其導入HDFS或使用Spark Streamin