原创 sqoop 導入 hive

sqoop 導入 Hive 分三步: 1. 先導入--target-dir 指定的 HDFS 的目錄中 2. 在 Hive 中建表 3. 調用 Hive 的 LOAD DATA INPATH 把 --target-dir中的數據移動到 H

原创 join理解

原创 kerbors進行安全驗證

一、環境準備 1.下載jce並解壓至JAVA_HOME/jre/lib/security目錄下,AMbari所有節點均需要 http://www.oracle.com/technetwork/java/javase/downloads/j

原创 Hadoop web頁面的授權設定

在core-siet.xml配置文件中增加如下三行 <property>                 <name>hadoop.http.filter.initializers</name>                 <valu

原创 sql case when 去重

count(distinct case trainnumber when 'null' then 0 when '0' then 0 else trainnumber end) as train_num

原创 azkaban安裝

首先將我們的安裝包下載下來,總共是4個,一個是web,一個是executor,一個是solo,一個是sql 然後解壓到我們的linux機器上 安裝第一步:首先配置mysql 1. 爲Azkaban創建一個數據庫: mysql> CREA

原创 shell 切換用戶

  # For SELinux we need to use ‘runuser‘ not ‘su‘ if [ -x "/sbin/runuser" ]; then      SU="/sbin/runuser -s /bin/sh" el

原创 Ambari2.7.0離線部署

一、下載安裝包 wget http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0/ambari-2.7.0.0-centos7.tar.gz wget

原创 Number of Under-Replicated Blocks問題

跑了一個mapreduce發現集羣上出現了7個Under-Replicated Blocks,在web頁面上能看到,在主節點上執行: $ bin/hadoop fsck -blocks 刪除導致問題的文件之後就好了。 導致這個問題可能有倆

原创 在Linux下後臺運行,程序運行前後臺切換

一、爲什麼要使程序在後臺執行 我們計算的程序都是週期很長的,通常要幾個小時甚至一個星期。我們用的環境是用Xshell遠程連接到Linux服務器。所以使程序在後臺跑有以下兩個好處: 1:我們這邊是否關機不影響服務器的程序運行。(不會像以前那

原创 web http方法

Post(新增),Put(修改),Delete(刪除),Get(查詢) GET:生到數據列表(默認),或者得到一條實體數據 POST:添加服務端添加一條記錄,記錄實體爲Form對象 PUT:添加或修改服務端的一條記錄,記錄實體的Form對

原创 將項目託管到gitHub

一、下載並安裝Git版本控制工具 下載地址:https://git-scm.com/downloads 註冊GitHub賬號:https://github.com/ 爲什麼託管到GitHub要下載Git?   git是一個版本控制工具  

原创 kafka-manager部署安裝

一、kafka-manager 簡介      爲了簡化開發者和服務工程師維護Kafka集羣的工作,yahoo構建了一個叫做Kafka管理器的基於Web工具,叫做 Kafka Manager。這個管理工具可以很容易地發現分佈在集羣中的哪些

原创 Hbase表兩種數據備份方法-導入和導出示例

https://blog.csdn.net/helloxiaozhe/article/details/80325212

原创 oracle 中Union和Union all區別

以前一直不知道Union和Union All到底有什麼區別,今天來好好的研究一下,網上查到的結果是下面這個樣子,可是還是不是很理解,下面將自己親自驗證: Union:對兩個結果集進行並集操作,不包括重複行,同時進行默認規則的排序; Uni