台部落a904364908

最近在做弄sparksql,在讀取mysql數據的時候發現一個問題, 在數據庫將字段定義成tinyint,並且長度爲1的時候,讀取到spark裏面,被轉換成Boolean類型的字段了. 測試表定義 CREATE TABLE `te

2019-09-09 05:46:09

最近在進行spark數據寫入es的時候,發生了報錯,[FORBIDDEN/12/index read-only / allow delete (api)]. 在網上查了一下,有可能是因爲磁盤空間不夠,索引變爲只讀,不可以寫入數據

2019-09-03 05:48:57

sqoop導入數據到hive查詢全部爲null. 最近在用sqoop導入數據到hive的時候,遇到一個問題.用sqoop將數據導入到hive後,在hive查詢,發現數據全部爲null. 而用sqoop導入命令的時候,沒有報錯,

2019-08-23 05:46:56

最近在增量同步mysql的數據到hive中,用sqoop進行增量導入,將增量任務設置爲sqoop的job,每天定時跑sqoop的job就可以了,在創建job的時候sqoop給出提示,不要在命令行使用明文密碼. 創建job命令: b

2019-08-06 05:30:42

概述 sqoop是apache旗下一款“Hadoop和關係數據庫服務器之間傳送數據”的工具。導入數據：MySQL，Oracle導入數據到Hadoop的HDFS、HIVE、HBASE等數據存儲系統；導出數據：從Hadoop的

2019-07-30 05:04:25

前段時間用sparksession讀取MySQL的一個表的時候,出現耗時長,頻繁出現oom等情況,去網上查找了一下,是因爲用的默認讀取jdbc方式,單線程任務重,所以出現耗時長,oom等現象.這時候需要提高讀取的併發度.現簡單記錄

2019-07-08 06:25:09

Azkaban安裝成功以後就可以進行任務調度了，這裏簡單演示幾個調度任務。單一job示例創建文本文件，更改名稱爲mycommand.job 內容如下 type=command command=echo 'hello wor

2019-06-16 08:33:21

最近在進行用sqoop將業務表數據導入到hive,在導入的時候發現一直在報一個WARN,WARN TableDefWriter:Column height had to be cast to a less precise type

2019-06-11 14:25:25

HBase搭建完成後,可以進行基本的API操作,對HBase進行測試. 導入依賴: <dependencies> <dependency> <groupId>org.apache.hbase</

2019-05-01 22:53:11

zookeeper概述 Zookeeper 是一個分佈式協調服務的開源框架。主要用來解決分佈式集羣中應用系統的一致性問題，例如怎樣避免同時操作同一數據造成髒讀的問題。ZooKeeper 本質上是一個分佈式的小文件存儲系統。提供基

2019-04-15 07:06:46

在工作中很多時候需要基於代碼發送郵件,最近基於JavaMail寫了一個測試demo 引入依賴, <dependencies> <dependency> <groupId>javax.mail</

2019-03-31 06:00:51

最近在做一項小測試,將Excel中的數據導入到MySQL中去,由於數據量比較大,並且有多個Excel表,所以寫Java代碼將數據導入到MySQL中,查了資料,用poi讀取數據並導入. 新建工程, 添加poi依賴 <dependenci

2019-03-24 05:51:58

最近折騰sparksql,正好有需求,需要讀取MongoDB的數據,在網上查找後,能順利用sparksql讀取MongoDB的數據.記錄下添加依賴 <dependencies> <dependency>

2019-03-03 16:04:05

最近有需求,要將spark的數據寫入es.在網上查找了一番,再測試過後,順利將任務完成,記錄下. 直接上代碼: pom文件: <dependencies> <dependency> <group

2019-02-27 14:21:53

自己的集羣啓動挺長時間,有天改了文件,需要重啓,在主目錄下停止hdfs發現報錯,no namenode to stop.再jps一下,果然沒停掉. 網上查找原因,發現是hadoop啓動時會生成namenode/datanode/zk

2019-01-26 17:33:02