原创 sqoop 導入 hive
sqoop 導入 Hive 分三步: 1. 先導入--target-dir 指定的 HDFS 的目錄中 2. 在 Hive 中建表 3. 調用 Hive 的 LOAD DATA INPATH 把 --target-dir中的數據移動到 H
原创 kerbors進行安全驗證
一、環境準備 1.下載jce並解壓至JAVA_HOME/jre/lib/security目錄下,AMbari所有節點均需要 http://www.oracle.com/technetwork/java/javase/downloads/j
原创 Hadoop web頁面的授權設定
在core-siet.xml配置文件中增加如下三行 <property> <name>hadoop.http.filter.initializers</name> <valu
原创 sql case when 去重
count(distinct case trainnumber when 'null' then 0 when '0' then 0 else trainnumber end) as train_num
原创 azkaban安裝
首先將我們的安裝包下載下來,總共是4個,一個是web,一個是executor,一個是solo,一個是sql 然後解壓到我們的linux機器上 安裝第一步:首先配置mysql 1. 爲Azkaban創建一個數據庫: mysql> CREA
原创 shell 切換用戶
# For SELinux we need to use ‘runuser‘ not ‘su‘ if [ -x "/sbin/runuser" ]; then SU="/sbin/runuser -s /bin/sh" el
原创 Ambari2.7.0離線部署
一、下載安裝包 wget http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0/ambari-2.7.0.0-centos7.tar.gz wget
原创 Number of Under-Replicated Blocks問題
跑了一個mapreduce發現集羣上出現了7個Under-Replicated Blocks,在web頁面上能看到,在主節點上執行: $ bin/hadoop fsck -blocks 刪除導致問題的文件之後就好了。 導致這個問題可能有倆
原创 在Linux下後臺運行,程序運行前後臺切換
一、爲什麼要使程序在後臺執行 我們計算的程序都是週期很長的,通常要幾個小時甚至一個星期。我們用的環境是用Xshell遠程連接到Linux服務器。所以使程序在後臺跑有以下兩個好處: 1:我們這邊是否關機不影響服務器的程序運行。(不會像以前那
原创 web http方法
Post(新增),Put(修改),Delete(刪除),Get(查詢) GET:生到數據列表(默認),或者得到一條實體數據 POST:添加服務端添加一條記錄,記錄實體爲Form對象 PUT:添加或修改服務端的一條記錄,記錄實體的Form對
原创 將項目託管到gitHub
一、下載並安裝Git版本控制工具 下載地址:https://git-scm.com/downloads 註冊GitHub賬號:https://github.com/ 爲什麼託管到GitHub要下載Git? git是一個版本控制工具
原创 kafka-manager部署安裝
一、kafka-manager 簡介 爲了簡化開發者和服務工程師維護Kafka集羣的工作,yahoo構建了一個叫做Kafka管理器的基於Web工具,叫做 Kafka Manager。這個管理工具可以很容易地發現分佈在集羣中的哪些
原创 Hbase表兩種數據備份方法-導入和導出示例
https://blog.csdn.net/helloxiaozhe/article/details/80325212
原创 oracle 中Union和Union all區別
以前一直不知道Union和Union All到底有什麼區別,今天來好好的研究一下,網上查到的結果是下面這個樣子,可是還是不是很理解,下面將自己親自驗證: Union:對兩個結果集進行並集操作,不包括重複行,同時進行默認規則的排序; Uni