原创 DataWorks之專有網絡中的MongoDB數據源打通

DataWorks之專有網絡中的MongoDB數據源打通問題:解決方案:執行步驟:1.說明2.添加服務器3.安裝Agent並初始化4.配置數據源5.測試運行Q&A:參考鏈接: 問題: 根據業務需求,Dataworks需要接入專有網

原创 對謂詞下推的一點看法

謂詞下推 1. 謂詞下推概念 謂詞下推原本是一個關係型數據庫中的詞語,優化關係 SQL 查詢的一項基本技術是,將外層查詢塊的 WHERE 子句中的謂詞移入所包含的較低層查詢塊(例如視圖),從而能夠提早進行數

原创 Hive 查詢結果和insert結果不一致問題排查

Hive 查詢結果和insert結果不一致問題排查 1.起因 ​ 由於公司業務需要,在做近半年業務數據回補的時候,發現存在部分分區數據不符合業務需要,於是,很想當然的重跑腳本,結果發現該部分數據無法正確過濾

原创 安裝redis出錯 /bin/sh: cc: command not found

環境 CentOS6.5 Redis3.2.10 過程 在安裝Redis時,發現報錯 原因是缺少gcc環境,導致編譯出錯,應該先安裝好gcc環境,再進行編譯 [root@es02 redis-3.2.10]# yum install

原创 mysql一些優化方案

1.合理使用索引   索引是數據庫中重要的數據結構,它的根本目的就是爲了提高查詢效率。現在大多數的數據庫產品都採用IBM最先提出的ISAM索引結構。索引的使用要恰到好處,其使用原則如下:   ●在經常進行連接,但是沒有指定爲外鍵的列上建立

原创 使用非等值自連接實現類窗口排序函數

前言 在使用Hive的時候,我們經常使用窗口函數來實現對查詢內容的排序操作,其中經常使用Rank() OVER() ,DENSE_RANK() 等,但是,在mysql中,8.0以下版本並不支持窗口函數的使用,因此,爲了實現類似的效果,

原创 詳解MapReduce:shuffle過程

MapReduce確保每個Reducer的輸入都是按鍵排序的,系統執行排序,將map輸出作爲輸入傳給Reducer的過程被稱爲shuffle。 MAP端 map函數開始產生輸出時,並不是簡單地將它寫到磁盤上。這個過程更復雜,它利用緩衝

原创 reduce 如何知道要從哪臺機器取得map輸出?

map任務成功後,它們會使用心跳機制通知它們的application master。因此,對於指定作業,application master 知道map輸出和主機位置之間的映射關係。reduce中的一個線程定期詢問master以便於獲

原创 yum安裝mongodb報錯

今天在嘗試yum安裝mongodb時,發現了問題: 這是因爲你以前用的是CENTOS現在是redhat 紅帽的yum安裝軟件的時候要驗證的看是不是紅帽的軟件,是紅帽的軟件可以安裝不是就失敗. 因此,我們需要將gpgcheck=1改成

原创 KILL掉當前Hive任務

在運行hive任務時,第7個job任務啓動後一直不動,感覺是除了問題 於是準備kill掉hive任務 使用hadoop job -list來列出當前hadoop正在執行的jobs 然後使用hadoop job -kill job_1

原创 解決錯誤:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.J

原创 解決問題:java.lang.NumberFormatException:For input string: "null"

今天中午,在做數據清洗的時候,發現了這個數據格式錯誤,幾次更改還是報錯,最後發現,這裏的“null”,其實就是“null”字符串,而不是String中的空值null。 因爲這個數據是從mysql中傳上來的,所以一直在看mysql中的

原创 Zmodem協議

Zmodem: 無論有xshell還是secureCRT連接linux的時。 默認都用一個zmodem可以幫助window和linux之間傳輸文件 很方便和實用的工具。 不過默認是無法使用的 需要安裝lrzsz軟件 直接雲安裝就可以了

原创 Scala小記(一)

1.只要函數不是遞歸的,我們就不需要寫返回值,但遞歸函數必須要寫返回值 2.for循環中 添加if守衛 加不加分號,意義不變 3.val x@y=1 ===> x:Int =1 y:Int =1 ,別問爲什麼,不知道 4.在

原创 簡單教你寫xsync和xcall的腳本

xsync配置 xsync腳本基於rsync工具,rsync 遠程同步工具,主要用於備份和鏡像。具有速度快、避免複製相同內容和支持符號鏈接的優點,它只是拷貝文件不同的部分,因而減少了網絡負擔。 rsync -rvl $pdir/$fn