Spark讀取數據庫(Mysql)的四種方式講解

原創

2020-06-25 09:35

一、不指定查詢條件

　　這個方式鏈接MySql的函數原型是：

def jdbc(url: String, table: String, properties: Properties): DataFrame

　　我們只需要提供Driver的url，需要查詢的表名，以及連接表相關屬性properties。下面是具體例子：

val url = "jdbc:mysql://www.iteblog.com:3306/iteblog?user=iteblog&password=iteblog"

val prop = new Properties()

val df = sqlContext.read.jdbc(url, "iteblog", prop )

println(df.count())

println(df.rdd.partitions.size)

　　我們運行上面的程序，可以看到df.rdd.partitions.size輸出結果是1，這個結果的含義是iteblog表的所有數據都是由RDD的一個分區處理的，所以說，如果你這個表很大，很可能會出現OOM

WARN TaskSetManager: Lost task 0.0 in stage 1.0 (TID 14, spark047219):
 java.lang.OutOfMemoryError: GC overhead limit exceeded at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:3380)

這種方式在數據量大的時候不建議使用。

二、指定數據庫字段的範圍

這種方式就是通過指定數據庫中某個字段的範圍，但是遺憾的是，這個字段必須是數字，來看看這個函數的函數原型：


def jdbc(
    url: String,
    table: String,
    columnName: String,
    lowerBound: Long,
    upperBound: Long,
    numPartitions: Int,
    connectionProperties: Properties): DataFrame

　　前兩個字段的含義和方法一類似。columnName就是需要分區的字段，這個字段在數據庫中的類型必須是數字；lowerBound就是分區的下界；upperBound就是分區的上界；numPartitions是分區的個數。同樣，我們也來看看如何使用：

val lowerBound = 1
val upperBound = 100000
val numPartitions = 5
val url = "jdbc:mysql://www.iteblog.com:3306/iteblog?user=iteblog&password=iteblog"
val prop = new Properties()
val df = sqlContext.read.jdbc(url, "iteblog", "id", lowerBound, upperBound, numPartitions, prop)

　　這個方法可以將iteblog表的數據分佈到RDD的幾個分區中，分區的數量由numPartitions參數決定，在理想情況下，每個分區處理相同數量的數據，我們在使用的時候不建議將這個值設置的比較大，因爲這可能導致數據庫掛掉！但是根據前面介紹，這個函數的缺點就是隻能使用整形數據字段作爲分區關鍵字。

　　這個函數在極端情況下，也就是設置將numPartitions設置爲1，其含義和第一種方式一致。

三、根據任意字段進行分區

　　基於前面兩種方法的限制，Spark還提供了根據任意字段進行分區的方法，函數原型如下：

def jdbc(
    url: String,
    table: String,
    predicates: Array[String],
    connectionProperties: Properties): DataFrame

這個函數相比第一種方式多了predicates參數，我們可以通過這個參數設置分區的依據，來看看例子：


val predicates = Array[String]("reportDate <= '2014-12-31'",
    "reportDate > '2014-12-31' and reportDate <= '2015-12-31'")
val url = "jdbc:mysql://www.iteblog.com:3306/iteblog?user=iteblog&password=iteblog"
val prop = new Properties()
val df = sqlContext.read.jdbc(url, "iteblog", predicates, prop)

最後rdd的分區數量就等於predicates.length。

四、通過load獲取

Spark還提供通過load的方式來讀取數據。

sqlContext.read.format("jdbc").options(
  Map("url" -> "jdbc:mysql://www.iteblog.com:3306/iteblog?user=iteblog&password=iteblog",
    "dbtable" -> "iteblog")).load()

　　options函數支持url、driver、dbtable、partitionColumn、lowerBound、upperBound以及numPartitions選項，細心的同學肯定發現這個和方法二的參數一致。是的，其內部實現原理部分和方法二大體一致。同時load方法還支持json、orc等數據源的讀取
。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark讀取數據庫(Mysql)的四種方式講解

一、不指定查詢條件

二、指定數據庫字段的範圍

三、根據任意字段進行分區

四、通過load獲取

Spark讀取數據庫(Mysql)的四種方式講解

redis-cluster (5.X)集羣擴容

log4j2配置日誌默認最大個數,以及自動刪除過期日誌文件的配置

centos 7.5設置靜態ip

python中os模塊listdir,isdir,isfile方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結