Spark是一個基於內存計算的開源集羣計算系統,目的是更快速的進行數據分析。Spark由加州伯克利大學AMP實驗室Matei爲主的小團隊使用Scala開發開發,其核心部分的代碼只有63個Scala文件,非常輕量級。 Spark 提供了與 Hadoop 相似的開源集羣計算環境,但基於內存和迭代優化的設計,Spark 在某些工作負載表現更優秀。 在2014上半年,Spark開源生態系統得到了大幅增長,已成爲大數據領域最活躍的開源項目之一,當下已活躍在Hortonworks、IBM、Cloudera、MapR和Pivotal等衆多知名大數據公司。那麼Spark究竟以什麼吸引瞭如此多的關注,這裏我們看向Dzone上的6個總結。 1. 輕量級快速處理。着眼大數據處理,速度往往被置於第一位,我們經常尋找能儘快處理我們數據的工具。Spark允許Hadoop集羣中的應用程序在內存中以100倍的速度運行,即使在磁盤上運行也能快10倍。Spark通過減少磁盤IO來達到性能提升,它們將中間處理數據全部放到了內存中。
Spark使用了RDD(Resilient Distributed Dataset)的理念,這允許它可以透明的內存中存儲數據,只在需要時才持久化到磁盤。這種做法大大的減少了數據處理過程中磁盤的讀寫,大幅度的降低了所需時間。 2. 易於使用,Spark支持多語言。Spark允許Java、Scala及Python,這允許開發者在自己熟悉的語言環境下進行工作。它自帶了80多個高等級操作符,允許在shell中進行交互式查詢。 3. 支持複雜查詢。在簡單的“map”及“reduce”操作之外,Spark還支持SQL查詢、流式查詢及複雜查詢,比如開箱即用的機器學習機圖算法。同時,用戶可以在同一個工作流中無縫的搭配這些能力。
4.實時的流處理。 對比MapReduce只能處理離線數據,Spark支持實時的流計算。Spark依賴SparkStreaming對數據進行實時的處理,當然在YARN之後Hadoop也可以藉助其他
|
大數據爲什麼要選擇Spark
ark是一個基於內存計算的開源集羣計算系統,目的是更快速的進行數據分析。Spark由加州伯克利大學AMP實驗室Matei爲主的小團隊使用Scala開發開發,其核心部分的代碼只有63個Scala文件,
|
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
對接HiveMetaStore,擁抱開源大數據
原創
2024-04-24 22:33:08
入職3年-我如何做一名AI產品經理
原創
2024-04-22 11:16:31
WhaleScheduler爲銀行業全信創環境打造統一調度管理平臺解決方案
原創
2024-04-19 21:18:25
用戶行爲分析模型實踐(四)—— 留存分析模型
原創
2024-04-19 11:26:00
利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫
原創
2024-04-25 21:18:23
【案例+PPT】普元信息臧一超:海量數據下“流批一體”的數據平臺演進路線
原創
2024-04-23 11:43:51
大數據小白的測試成長之路
原創
2024-04-28 11:17:19
如何從0到1設計診斷系統
原創
2024-04-26 22:43:26
華爲雲Stack8.3面向香港正式發佈,六大亮點激發雲上躍遷
原創
2024-04-26 10:33:21
重磅新品發佈!雲耀數據庫HRDS,享受輕量級的極致體驗
原創
2024-04-23 22:32:33
沙特2030年願景和對中國IT企業的市場機會分析
原創
2024-04-23 22:24:54
03-爲啥大模型LLM還沒能完全替代你?
原創
2024-04-23 01:07:00
01-大語言模型發展
原創
2024-04-22 01:12:50
京東內部研效架構師訓練營,首次對外公開課,不可錯過的研效之旅!
京東雲開發者
2024-04-19 11:16:30