原创 hive中grouping sets的使用
GROUPING SETS: 根據不同的維度組合進行聚合,等價於將不同維度的GROUP BY結果集進行UNION ALL GROUPING__ID:表示結果屬於哪一個分組集合,屬於虛字段 CUBE: 根據GROUP BY的維度的
原创 maven加速下載依賴的解決方法
1) clean,compile,build,package,install等應用編譯打包的參數。 2) 四個主要組成:我是誰、我的依賴倉庫源、我依賴誰、如何構建 3) 鏡像:mirror,核心作用:加速依賴包的下載 中央倉
原创 java中 this的用法
this關鍵字有三個主要的作用: 1、在構造方法中調用其他構造方法。比如有一個Person類,有三個構造方法,某一個構造函數中調用另外構造 方法,就要用到this,而直接使用Person()是不可以的。 2、返回當前對象的引用 3、區分成
原创 hive表推到mysql表的方式
1) sqoop 第三方工具包(插件plugin),實現的是hive(非關係型數據源)與關係型數據庫相互傳輸數據的最常用組件。 其它的如datax是類似的插件。 2) 自行實現 A: hive, B:
原创 unzip解壓文件並 定向輸出 遇到的細節問題
首先查看unzip下的各個參數的用法 -u 更新文件,意爲若文件存在則不會創建新的文件、 -o 重寫文件,無條件創建新的文件 -d 將產生的文件輸出 將列表內的兩個.zip文件一同解壓並將解壓後的文件放入新的文件夾下-u
原创 Linux環境下mysql設置root賬戶初始密碼
1.首先查看mysqld的服務狀態若沒有開啓,則啓動mysql服務:service mysqld start2.默認mysql無密碼,需設置root用戶密碼登錄mysql服務器:mysql -u root //直接回車進入mys
原创 hadoop核心組件與應用
HDFS解決底層的存儲問題yarn解決資源調度和任務管理。(資源調度:有了任務後,決定分配到哪些機器上執行;任務管理:任務在執行過程中,進行過程監控、狀態反饋、再調度等工作)MapReduce,解決分佈式計算門檻高問題,基於其框架對分佈式
原创 git 工作原理 shell應用
1.git工作原理.git是什麼開源的分佈式版本控制系統,去中心化。大小項目均可以靈活管理,參與開發人員比較靈活。Linux的代碼管理工具BitKeeper不適合開源社區,故Torvalds推出了GIT。.工作架構.工作流程圖.分支管理
原创 hive架構設計與運行流程 圖解
Hive是基於Hadoop的數據倉庫,使用HQL作爲查詢接口、HDFS作爲存儲底層、mapReduce作爲執行層, 基於Hadoop平臺解決了企業數據倉庫構建的核心技術問題,證明了Hadoop平臺的強大。從而進一步降低了Hadoop使用的
原创 Linux下MySQL5.X的修改字符集編碼爲UTF8
例如:運行字符串函數CHAR_LENGTH(s) : 求字符串的長度,每個字符計數爲1,只看字符個數,不看字符所佔的字節數如果你的結果集不是2,而是>2的結果,其原因在於mysql的字符集設置保持了默認的latin1,使其不識別中文導致,
原创 hive數據文件格式和壓縮格式
.文件格式文件格式按面向的存儲形式不同,分爲面向行和麪向列兩大類文件格式。面向行、列類型 類型名稱是否可切割計算優點缺點適用場景面向行文本文件(.txt)YES查看編輯簡單無壓縮佔空間大,傳輸壓力大,數據解析開銷大學習練習使用面向行Seq
原创 mysql三大範式
數據庫設計範式關係數據庫中的關係必須滿足一定的要求,即滿足不同的範式。關係數據庫有六種範式:第一範式(1NF)、第二範式(2NF)、第三範式(3NF)、巴德斯科範式(BCNF)、第四範式(4NF)和第五範式
原创 Linux系統下安裝rz/sz命令
安裝用於linux與window之間互相傳遞文件的rzsz命令:yum install lrzsz安裝成功後,執行rzrz 文件路徑 //從本地上傳數據sz 文件路徑 //從遠程發送數據到本地
原创 通過javaApi從集羣讀取文件
import java.io.ByteArrayOutputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataIn
原创 通過javaApi 從本地上傳文件到集羣
獲取本地文件工具類import java.io.*; public class GetLocalFile { public static String getLocalFile(String filePath) throws E