【大數據學習】SparkSQL 之 DataFrame與RDD的區別

原創

奔走觅衣粮

2019-03-28 00:56

DataFrame與RDD的區別

看上圖，左側的RDD[Person]雖然以Person爲類型參數，但Spark框架本身不瞭解Person類的內部結構，而右側的DataFrame就不一樣了，它更像是一個二維表格，在這個二維表格裏面，有行有列。使得Spark SQL可以清楚地知道該數據集中包含哪些列，每列的名稱和類型各是什麼。DataFrame多了數據的結構信息，即不僅可以知道里面的數據，而且它還可以知道里面的schema信息。相當於結構化的了，而平常我們所說的優化，如果想要優化的更好，所要暴露的信息更多就越好，這樣系統才能更好大的進行優化。以上是從存儲的角度分析兩者的區別。

現在再結合上圖進行理解：

Java 、Scala操作RDD的底層是跑在JVM上的，而Python是跑在python execution，由於環境不一樣，從而他們執行時的效率不一樣的。但是有DF就不一樣的，經過DF後，再經過一層邏輯執行計劃，等於將Java ,Scala，Python 等全部都轉換成邏輯執行計劃Logicplan，完了後纔到物理執行計劃Physical Execution。所以不管是什麼語言，執行的效率幾乎是一樣的。這個就是從計算(執行)的角度去分析兩者的區別。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SparkSQL 性能調優參數

1，spark.hadoopRDD.ignoreEmptySplits 默認是false，如果是true，則會忽略那些空的splits，減小task的數量。 2，spark.hadoop.mapreduce.input.filei

2020-07-06 10:36:59

spark程序調優總結

目錄目的環境調優步驟參數優化RDD優化rdd複用rdd持久化廣播大變量算子優化mapPartitionsforeachPartitionrepartition存儲文件優化參考鏈接隨緣求贊目的關於spark程序優化總結，包括參數

2020-07-01 22:56:07

presto sql輸入表、輸入字段、limit、join操作解析

前言一段時間沒有寫文章了，寫下最近做的事情。目前我們這邊有一個metabase 查詢平臺供運營、分析師、產品等人員使用，我們的查詢都是使用 presto 引擎。並且我們的大數據組件都使用的是 emr 組件，並且涉及到中國、美西

2020-06-23 08:41:55

6JDBC數據源實戰

JDBC數據源實戰 Spark SQL支持使用JDBC從關係型數據庫（比如MySQL）中讀取數據。讀取的數據是DataFrame，可以很方便地使用Spark Core提供的各種算子進行處理。一、JDBC的讀取和寫入格式讀取JD

2020-06-21 14:15:17

spark sql 源碼分析

入口 SQLContext // 用spark執行sql,返回一個DataFrame最爲結果 def sql(sqlText: String): DataFrame = sparkSession.sql(sqlText) Dat

道友，且慢

2020-06-18 22:00:57

Shark爲何被拋棄？

Shark的來歷 Shark是由Reynold Xin從2011年開始主導開發的。當時Hive幾乎是唯一的SQL-Hadoop的選擇方案，然而hive的性能受限於MapReduce，無法使用spark的計算模型。Shark的提出就

道友，且慢

2020-06-18 22:00:57

spark sql boardcast join 生效問題探索

這裏寫目錄標題本文針對版本spark 2.2問題描述問題排查broadcast join 自動觸發條件。執行解決不能自動觸發boardcast join得情況本文針對版本spark 2.2 問題描述 spark sql 執行

2020-06-16 10:58:12

Kyuubi採坑記錄

1、hive meta server使用sentry權限認證，kyuubi在opensession的時候初始化默認數據庫會報空指針異常問題版本：0.8 原因：hive metahook過濾元數據的時候需要從配置中獲取用戶名，屬性

星星木有夜

2020-06-14 15:10:10

Spark：自定義Schema信息將數據集合轉換爲Spark sql中的DataFrame

使用場景在Spark中可以直接讀取數據文件但是讀取到的數據的每一項數據是沒有數據類型的而且不能使用數據像使用數據表中的字段名那樣使用數據可以在讀取數據的時候對讀取到的數據進行設置轉換設置轉換後使用數據可以像使用數據庫表中

无名一小卒

2020-06-14 12:58:12

【Spark】Spark SQL簡介

文章目錄什麼是Spark SQLSpark SQL的特點什麼是DataFrame什麼是DataSet 什麼是Spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了2個編程抽象：DataFrame

斗士（Carroll）

2020-06-08 21:23:29

Spark SQL 的數據加載與保存(load , save)

2020-06-04 07:23:43

【大數據學習】之用spark-sql和spark-shell操作hive裏面的表數據

奔走觅衣粮

2020-06-02 21:55:42

Kudu與Spark 集成

爆发的~小宇宙

2020-06-02 13:13:17

spark sql實戰—拆分數據

2020-05-24 06:36:05

Spark Sql實戰--合併數據

2020-05-24 06:36:05

24小時熱門文章

最新文章

最新評論文章