【大數據學習】之 SparkSQL DataFrame、DataSet的概述

原創

奔走觅衣粮

2019-03-26 15:22

根據官網介紹DataFrame、DataSet：

Dataset 是一個分佈式的數據集合。是spark1.6版本纔出來的。它提供RDD中的有點（強類型、lambda表達式、優化SparkSQL執行引擎）。DataFrame中能用的東西大部分在DataSet都能用。DataSet能夠通過JVM對象構建出來。DataSet能使用函數表達式（map、flatmap、filter等等）。DataSet API能在Java和Scala中使用。python暫不支持。在Scala API中，DataFrame可以等於DataSet[Row]，DataFrame = Dataset[Row]。

DataFrame是一個以列（列名、列的類型、列值）的形式構成的分佈式數據集。它在概念上等同於關係數據庫中的表或R / Python中的數據框，但在底層具有更豐富的優化。DataFrame可以從多種來源構建，例如：結構化數據文件（json）、hive中的表、其他外部數據源（mysql、no sql）、已經存在的RDD。DataFrame API在Scala，Java，Python和R中可用。在Scala和Java中，DataFrame由Rows 的數據集表示。在Scala API中，DataFrame它只是一個類型別名Dataset[Row]。而在Java API中，用戶需要使用Dataset<Row>來表示DataFrame。

Spark 1.3 版本之前是稱呼SchemaRDD的，之後纔有的DataFrame；其實SchemaRDD不就是把一個Schema作用在RDD之上嘛，其實本質上和DataFrame沒有區別。

在1.3版本出來了DataFrame

在1.6版本出來了DataSet

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SparkSQL 性能調優參數

1，spark.hadoopRDD.ignoreEmptySplits 默認是false，如果是true，則會忽略那些空的splits，減小task的數量。 2，spark.hadoop.mapreduce.input.filei

2020-07-06 10:36:59

spark程序調優總結

目錄目的環境調優步驟參數優化RDD優化rdd複用rdd持久化廣播大變量算子優化mapPartitionsforeachPartitionrepartition存儲文件優化參考鏈接隨緣求贊目的關於spark程序優化總結，包括參數

2020-07-01 22:56:07

presto sql輸入表、輸入字段、limit、join操作解析

前言一段時間沒有寫文章了，寫下最近做的事情。目前我們這邊有一個metabase 查詢平臺供運營、分析師、產品等人員使用，我們的查詢都是使用 presto 引擎。並且我們的大數據組件都使用的是 emr 組件，並且涉及到中國、美西

2020-06-23 08:41:55

6JDBC數據源實戰

JDBC數據源實戰 Spark SQL支持使用JDBC從關係型數據庫（比如MySQL）中讀取數據。讀取的數據是DataFrame，可以很方便地使用Spark Core提供的各種算子進行處理。一、JDBC的讀取和寫入格式讀取JD

2020-06-21 14:15:17

spark sql 源碼分析

入口 SQLContext // 用spark執行sql,返回一個DataFrame最爲結果 def sql(sqlText: String): DataFrame = sparkSession.sql(sqlText) Dat

道友，且慢

2020-06-18 22:00:57

Shark爲何被拋棄？

Shark的來歷 Shark是由Reynold Xin從2011年開始主導開發的。當時Hive幾乎是唯一的SQL-Hadoop的選擇方案，然而hive的性能受限於MapReduce，無法使用spark的計算模型。Shark的提出就

道友，且慢

2020-06-18 22:00:57

spark sql boardcast join 生效問題探索

這裏寫目錄標題本文針對版本spark 2.2問題描述問題排查broadcast join 自動觸發條件。執行解決不能自動觸發boardcast join得情況本文針對版本spark 2.2 問題描述 spark sql 執行

2020-06-16 10:58:12

Kyuubi採坑記錄

1、hive meta server使用sentry權限認證，kyuubi在opensession的時候初始化默認數據庫會報空指針異常問題版本：0.8 原因：hive metahook過濾元數據的時候需要從配置中獲取用戶名，屬性

星星木有夜

2020-06-14 15:10:10

Spark：自定義Schema信息將數據集合轉換爲Spark sql中的DataFrame

使用場景在Spark中可以直接讀取數據文件但是讀取到的數據的每一項數據是沒有數據類型的而且不能使用數據像使用數據表中的字段名那樣使用數據可以在讀取數據的時候對讀取到的數據進行設置轉換設置轉換後使用數據可以像使用數據庫表中

无名一小卒

2020-06-14 12:58:12

【Spark】Spark SQL簡介

文章目錄什麼是Spark SQLSpark SQL的特點什麼是DataFrame什麼是DataSet 什麼是Spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了2個編程抽象：DataFrame

斗士（Carroll）

2020-06-08 21:23:29

Spark SQL 的數據加載與保存(load , save)

2020-06-04 07:23:43

【大數據學習】之用spark-sql和spark-shell操作hive裏面的表數據

奔走觅衣粮

2020-06-02 21:55:42

Kudu與Spark 集成

爆发的~小宇宙

2020-06-02 13:13:17

spark sql實戰—拆分數據

2020-05-24 06:36:05

Spark Sql實戰--合併數據

2020-05-24 06:36:05

24小時熱門文章

最新文章

最新評論文章