原创 記Datax3.0解決MySQL抽數到HDFSNULL變爲空字符的問題

一、背景 使用Datax3.0 地址: https://github.com/alibaba/DataX 在HDFS讀的時候開放了如下nullFormat選項:   nullFormat 描述:文本文件中無法使用標準字符串定義null(

原创 sqoop抽數的一個小細節

sqoop抽數的時候我們一般會在jdbc參數上附加加一些條件做些字符編碼的相關設置等,但是親自測試會發現一些小問題。 如下示例: sqoop import -Dorg.apache.sqoop.splitter.allow_t

原创 HBase從入門到放棄(經典收藏)

前言 HBase是大數據架構中最常用的面向半結構、非結構化的存儲系統,是Google三駕馬車之一Bigtable的開源實現(Apache頂級項目),具備高可靠、高性能、可伸縮能力。 伴隨着互聯網時代數據的澎湃增長,HBase在國內外知名公

原创 初識數據源同步利器--DataX

一、DataX是什麼? DataX 是一個異構數據源離線同步工具,致力於實現包括關係型數據庫(MySQL、Oracle等)、 HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各種異構數據源之間穩定高效的數據同步

原创 Spark 異常總結及解決辦法

前言 總結Spark開發中遇到的異常及解決辦法,之前也寫過幾篇,之所以不再一個異常寫一篇博客,是因爲現在Spark用的比較熟悉了一些,覺得沒必要把異常信息寫那麼詳細了,所以就把異常總結在一篇博客裏了,這樣既能備忘也方便查找。 1、之前的幾

原创 Spark寫文件失敗測試記錄

環境:Spark Version: 2.4.0 目的:包含非法數據的情況下,spark是否能夠寫入?還是什麼都沒有? 驗證:使用Spark-shell On Yarn 本地方式提交 1、本地進行任務提交,使用spark-shell快速驗證

原创 mongo抽數到Hive小結

問題描述: 目的:使用mongoexport工具將mongo表數據抽到hive倉庫中(T+1)並進行初步清洗 遇到的問題: 1、抽數的科學記數法問題 2、json格式嵌套導致列錯亂的問題 通常做法: 1、使用如下命令將數據導出csv格式