原创 SparkSQL讀取MySQL數據tinyint字段轉換成boolean類型的解決方案

最近在做弄sparksql,在讀取mysql數據的時候發現一個問題, 在數據庫將字段定義成tinyint,並且長度爲1的時候,讀取到spark裏面,被轉換成Boolean類型的字段了. 測試表定義 CREATE TABLE `te

原创 spark寫入es報錯,[FORBIDDEN/12/index read-only / allow delete (api)]解決方法

最近在進行spark數據寫入es的時候,發生了報錯,[FORBIDDEN/12/index read-only / allow delete (api)]. 在網上查了一下,有可能是因爲磁盤空間不夠,索引變爲只讀,不可以寫入數據

原创 sqoop導入數據到hive查詢全部爲null,sqoop導入到hive數據增多的解決方法

sqoop導入數據到hive查詢全部爲null. 最近在用sqoop導入數據到hive的時候,遇到一個問題.用sqoop將數據導入到hive後,在hive查詢,發現數據全部爲null. 而用sqoop導入命令的時候,沒有報錯,

原创 sqoop運行job避免輸入密碼的解決方案

最近在增量同步mysql的數據到hive中,用sqoop進行增量導入,將增量任務設置爲sqoop的job,每天定時跑sqoop的job就可以了,在創建job的時候sqoop給出提示,不要在命令行使用明文密碼. 創建job命令: b

原创 sqoop的安裝和簡單使用案例

概述 sqoop是apache旗下一款“Hadoop和關係數據庫服務器之間傳送數據”的工具。 導入數據:MySQL,Oracle導入數據到Hadoop的HDFS、HIVE、HBASE等數據存儲系統; 導出數據:從Hadoop的

原创 spark讀取MySQL的方式及併發度優化

前段時間用sparksession讀取MySQL的一個表的時候,出現耗時長,頻繁出現oom等情況,去網上查找了一下,是因爲用的默認讀取jdbc方式,單線程任務重,所以出現耗時長,oom等現象.這時候需要提高讀取的併發度.現簡單記錄

原创 Azkaban的簡單實戰案例

Azkaban安裝成功以後就可以進行任務調度了,這裏簡單演示幾個調度任務。 單一job示例 創建文本文件,更改名稱爲mycommand.job 內容如下 type=command command=echo 'hello wor

原创 sqoop導入hive警告WARN TableDefWriter:Column height had to be cast to a less precise type in Hive

最近在進行用sqoop將業務表數據導入到hive,在導入的時候發現一直在報一個WARN,WARN TableDefWriter:Column height had to be cast to a less precise type

原创 HBase的Java API基本操作,測試(完全分佈式)

HBase搭建完成後,可以進行基本的API操作,對HBase進行測試. 導入依賴: <dependencies> <dependency> <groupId>org.apache.hbase</

原创 Zookeeper的簡單介紹和搭建

zookeeper概述 Zookeeper 是一個分佈式協調服務的開源框架。 主要用來解決分佈式集羣中應用系統的一致性問題,例如怎樣避免同時操作同一數據造成髒讀的問題。ZooKeeper 本質上是一個分佈式的小文件存儲系統。 提供基

原创 Java發送騰訊企業郵箱郵件,基於ssl協議

在工作中很多時候需要基於代碼發送郵件,最近基於JavaMail寫了一個測試demo 引入依賴, <dependencies> <dependency> <groupId>javax.mail</

原创 Java代碼讀取Excel中的數據導入到MySQL中

最近在做一項小測試,將Excel中的數據導入到MySQL中去,由於數據量比較大,並且有多個Excel表,所以寫Java代碼將數據導入到MySQL中,查了資料,用poi讀取數據並導入. 新建工程, 添加poi依賴 <dependenci

原创 sparksql 對MongoDB數據的讀取(scala版本)

最近折騰sparksql,正好有需求,需要讀取MongoDB的數據,在網上查找後,能順利用sparksql讀取MongoDB的數據.記錄下 添加依賴 <dependencies> <dependency>

原创 sparkSQL 數據寫入es

最近有需求,要將spark的數據寫入es.在網上查找了一番,再測試過後,順利將任務完成,記錄下. 直接上代碼: pom文件: <dependencies> <dependency> <group

原创 解決hadoop重啓時,hdfs停止不了,no namenode to stop問題

自己的集羣啓動挺長時間,有天改了文件,需要重啓,在主目錄下停止hdfs發現報錯,no namenode to stop.再jps一下,果然沒停掉. 網上查找原因,發現是hadoop啓動時會生成namenode/datanode/zk