先來看看二者在概念上的區別
https://zhuanlan.zhihu.com/p/79813444
再來看看二者在性能上的區別
https://zhuanlan.zhihu.com/p/79946516
結論
Hive是在Hadoop分佈式文件系統上運行的開源分佈式數據倉庫數據庫,用於查詢和分析大數據。
Spark 是一個框架,需要具體的類似於 Hive 的數據庫支持,Spark 基於內存分析,速度更快。
其他
【https://zhuanlan.zhihu.com/p/69481303】
Apache Spark是專爲大規模數據處理而設計的快速通用的計算引擎,Spark擁有Hadoop MapReduce所具有的的所有優點,但不同於MapReduce得是job中間輸出結果可以保存在內存中,從而不需要去讀取HDFS,因此Spark能更好的適用於數據挖掘於機器學習等需要的迭代的MapReduce的算法,Spark是Scala編寫,方便快速編程
Spark和MapReduce的區別:
Spark基於內存,MapReduce基於hdfs.Spark處理數據的能力一般是MapReduce的十倍以上,Spark中除了基於內存計算外,還有DAG有向無環圖來切分任務的執行先後順序