Sqoop併發控制及相關問題

原創

lishengping_max

2020-07-05 15:07

一、控制參數

Sqoop 可以通過以下參數控制併發讀取的 Mapper 個數加快讀取速度。

sqoop import -m <mapper_num> --split-by pk
或者
sqoop import --num-mappers <mapper_num> --split-by pk

Sqoop 計算每個 Mapper 讀取的數據範圍的時候，會遵循很簡單的公式計算：

range = (max(pk) - min(pk)) / mapper

然後會把max、min之間的區間平均分爲mapper分，最後mapper個並行的map去找數據庫，導數據就正式開始啦！

如果不指定–split-by，默認是主鍵，Sqoop當前無法在多列索引上拆分。如果您的表沒有索引列，或者具有多列鍵，那麼您還必須手動選擇一個拆分列，拆分列爲null的行不會導入

二、問題

sqoop數據傾斜
如果主鍵不連續出現大幅度跳躍，就會導致 Sqoop 導入的時候出現嚴重的數據傾斜。比如某張表的主鍵分佈是這樣的：

幾乎出現所有的數據 load 都集中在第一個 mapper 上，整體同步相當於沒有併發。

解決：
1.可以手動split-by指定一個分佈均勻number列，但是number爲null的數據不會導入，優選選擇非空的number列
2.將row_num添加到現有的表模式中並創建一個實體化視圖。split-by指定爲row_num，數據將平均分配到了映射器中。
3.給業務表添加自增列ID

相關鏈接
http://abhinaysandeboina.blogspot.com/2017/08/avoiding-data-skew-in-sqoop.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

java調用sqoop api用法

java調用sqoop有兩種用法，一是使用sqoop java api，二是使用runtime調用sqoop命令，但runtime比較難用，不推薦，以下是兩種使用sqoop Java api的方法。方法一、使用String[]傳

lishengping_max

2020-07-06 15:30:54

sqoop的安裝及簡單使用

一、說明 1、sqoop是sql to hadoop的縮寫。 2、連接傳統關係型數據庫和Hadoop的橋樑，把關係型數據庫的數據導入到 Hadoop 系統 ( 如 HDFS、HBase 和 Hive) 中；把數據從 Hadoop 系統裏

时不我待，一日千里

2020-07-06 04:31:20

sqoop使用過程中遇到的坑

一、mysql和hive互相當導入時遇到的注意：爲了避免其他問題最好先將hive配置文件下的hive-site.xml複製到sqoop配置文件夾下並保持一致； 1、錯誤一 19/06/05 10:03:38 ERROR hive.Hi

时不我待，一日千里

2020-07-06 03:53:24

sqoop之hive數據導入mysql

1、查詢hive表中的student數據及信息 hive> select * from student; OK 001 xiaohong 002 002 xiaolan 002 001 xiaohong 003 002 xiaolan

时不我待，一日千里

2020-07-06 03:53:24

sqoop之mysql數據導入hive

1、查看mysql表數據 mysql> select * from stu; +----------+------+----------+ | name | age | address | +----------+-----

时不我待，一日千里

2020-07-06 03:53:24

Sqoop--源數據含有默認換行符導致的數據不正確

問題描述使用sqoop導數導到hdfs中，使用Hive查詢發現數據多了，並且有數據錯位的現象。原因源數據中有’\n’換行符，導致被hive識別爲換行符。所以出現了記錄多並且數據錯位的現象。解決方法使用sqoop命令時加入

lishengping_max

2020-07-05 15:07:56

java api併發調用sqoop異常記錄

通過java api併發調用sqoop，發現如下相關異常 2020-07-03 15:10:44 [ pool-1-thread-6:350039 ] - [ ERROR ] Got exception running Sqo

lishengping_max

2020-07-05 15:07:56

用戶畫像 --運用sqoop導入數據 HBase ImportTSV HBase Bulkload MapReduce導入

項目數據導入前提：整個用戶畫像（UserProfile）項目中，數據、業務及技術流程圖如下所示：其中數據源存儲在業務系統數據庫：MySQL 數據庫中，採用SQOOP全量/增量將數據抽取到HDFS（Hive表中），通過轉換爲HFile

2020-07-03 05:17:29

Centons7下安裝配置Sqoop、Linux下安裝配置Sqoop

本篇文章主要介紹在windows下使用vmware虛擬機中的Linux(Centons7)下配置安裝Sqoop。簡要步驟： ①、下載Sqoop解壓包 ②、解壓Sqoop ③、配置Sqoop ④、配置環境變量 ⑤、查看是否安裝成功 ⑥、查

2020-07-02 20:00:08

sqoop初學習

Sqoop(發音：skup)是一款開源的工具，主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞，可以將一個關係型數據庫（例如： MySQL ,Oracle ,Postgres等

2020-07-02 03:26:36

【Sqoop】sqoop導入導出

本文簡單介紹Sqoop如下操作： Import： rdbms導入HDFS; rdbms導入Hive； rdbms導入Hbase； Export： Hive導出到rdbms； Hbase導出到rdbms；其中，

2020-06-30 17:03:22

sqoop之從oracle導入hbase的問題與sqoop hbase 需要注意的一個問題

sqoop從oracle導入，需要有ojdbc6.jar,放在$SQOOP_HOME/lib裏，不用添加到classpath裏，因爲sqoop會自己遍歷lib文件夾並添加里面的所有jar包 --connect與mysql的不一樣，如下（

一无所有自知之明

2020-06-28 16:45:11

sqoop job命令自動生成

批量生成 #!/usr/bin/env python import MySQLdb import datetime import time import os #file path FILEPATH='/tmp' #sourc

2020-06-28 04:44:37

Sqoop安裝步驟

前提：安裝 sqoop 的前提是已經具備 java 和 hadoop 的環境建議使用版本: 1.4.6 (最新最穩定版) 1. 上傳安裝包並解壓 2. 修改配置文件 $SQOOP_HOME 爲你解壓到路徑 [root@node

潘书鹏的BigData

2020-06-25 12:52:45

sqoop的import與export及其腳本使用

Sqoop官方網址：http://sqoop.apache.org/ 一、Sqoop的誕生 1、存在的問題 ⑴RDBMS：數據大量存儲在RDBMS（Oracle、MySQL、DB2等）上，如果需要對數據進行分析，需要將這些數據遷移到H

2020-06-25 09:38:53

24小時熱門文章

最新文章

最新評論文章