原创 hive與關係型數據庫對比
關係數據庫裏,表的加載模式是在數據加載時候強制確定的(表的加載模式是指數據庫存儲數據的文件格式),如果加載數據時候發現加載的數據不符合模式,關係數據庫則會拒絕加載數據,這個就叫“寫時模式”,寫時模式會在數據加載時候對數據模式進行檢查校驗的
原创 Flink Streaming函數操作
max與maxBy的區別。min與minBy同理 maxBy:對比某字段返回最大的一條記錄,如果這條記錄有N個字段,會全部返回 max:比某字段僅返回此字段,這條記錄的吉他字段不返回 interval join 該操作需要制定even
原创 linuxx常用命令
創建多個文件夾 mkdir {aaa,bbb,ccc} 殺掉所有java進程 pkill java 查看佔用端口的進程 netstat -lntup|grep 3888
原创 linux中crontab用法
先寫一個啓動腳本: vi runCronMod.sh目錄: /data/yunying/retain/runCronMod.sh #!/bin/bash # File: runCronMod.sh # Usage: ./runC
原创 Mybatis中selectOne的空指針異常
selectOne調用了selectList方法,當selectList方法返回值的size小於1 的時候,selectOne方法會返回null值。我們再來看一下mybatis的xml. 如果你寫了resultType爲Integ
原创 YARN的內存和CPU配置
Hadoop YARN同時支持內存和CPU兩種資源的調度,本文介紹如何配置YARN對內存和CPU的使用。 YARN作爲一個資源調度器,應該考慮到集羣裏面每一臺機子的計算資源,然後根據application申請的資源進行分配Contai
原创 Log4j配置詳解
轉自:http://www.blogjava.net/zJun/archive/2006/06/28/55511.html Log4J的配置文件(Configuration File)就是用來設置記錄器的級別、存放器和佈局的,它可接ke
原创 IDEA安裝scala環境
clone flink 1.6 執行報錯.顯示沒有scala jar 下載scala sdk 引用到項目中,發現一直去C盤的用戶目錄下去找jar包. 卸載IDEA中的scala插件,重新安裝失敗.應該是沒有C盤的操作權限.修改IDEA的
原创 Mapreduce之間的參數傳遞
對於複雜的數據可以考慮把數據保存的公共的結點,然後在map'的setup方法中去讀取這個文件,從而獲得共享的數據,而對於簡單的數據可以用conf進行傳遞。 在驅動函數裏面Configuration conf2=getConf();c
原创 ES中使用delete by query
上面指定索引 type 下面內容從query中拷貝過來使用即可 DELETE mobileoper_201609/type_410/_query { "query": { "term": { "type":
原创 Flink1.9的sql-client初探
安裝flink1.9 start-cluster 編寫test-env.yaml (一定注意格式和縮進! 對照 https://github.com/apache/flink/blob/release-1.9/flink-table/
原创 MapReduce的map端join
用的都是舊的API,不知道怎麼使用新的API import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.u
原创 hive常用筆記
1,臨時執行一個sql就退出 hive -e "select * from test"; 2,臨時執行一個sql,忽略OK..這些東西(靜默模式)並保存到本地一個臨時目錄 hive -S -e "select * from te
原创 定位java中的死循環
kafaka consumer突然CPU佔用100%.. kafka裏還沒有數據,原來是有死循環代碼. 如何定位呢? 先top 找到佔用CPU最大的進程 top - 03:11:00 up 52 days, 17:50, 5
原创 flink dataStream API
類型 描述 dataStream.global(); 全部發往第一個task dataStream.broadcast(); 廣播,複製發送到每一個task,注意數據量 dataStream.forward