Hive vs Spark

先來看看二者在概念上的區別

https://zhuanlan.zhihu.com/p/79813444

再來看看二者在性能上的區別

https://zhuanlan.zhihu.com/p/79946516

結論

Hive是在Hadoop分佈式文件系統上運行的開源分佈式數據倉庫數據庫,用於查詢和分析大數據。
Spark 是一個框架,需要具體的類似於 Hive 的數據庫支持,Spark 基於內存分析,速度更快。

其他

【https://zhuanlan.zhihu.com/p/69481303】
Apache Spark是專爲大規模數據處理而設計的快速通用的計算引擎,Spark擁有Hadoop MapReduce所具有的的所有優點,但不同於MapReduce得是job中間輸出結果可以保存在內存中,從而不需要去讀取HDFS,因此Spark能更好的適用於數據挖掘於機器學習等需要的迭代的MapReduce的算法,Spark是Scala編寫,方便快速編程

Spark和MapReduce的區別:
Spark基於內存,MapReduce基於hdfs.Spark處理數據的能力一般是MapReduce的十倍以上,Spark中除了基於內存計算外,還有DAG有向無環圖來切分任務的執行先後順序

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章