Apache Atlas 1.2.0在CDH5安裝使用記錄(終極完整版)

一、環境

CDH 5.15.2
JDK 1.8
編譯環境:macOs,和linux差別不大
MAVEN:阿里雲鏡像
基於CDH集羣已有Hbase、Kafka和單節點Elasticsearch搭建
注意點:Atlas 只支持HIVE1.2.1以上版本血緣功能,可以單方面升級HIVE版或者升級CDH版本

二、編譯安裝

1.下載地址:http://atlas.apache.org/#/Downloads
2.解壓源碼包

tar -xvfz apache-atlas-${project.version}-sources.tar.gz
cd apache-atlas-sources-${project.version}
export MAVEN_OPTS="-Xms2g -Xmx2g"
mvn clean -DskipTests package -Pdist,embedded-hbase-solr

3.編譯錯誤解決
1.編譯到UI部分時候,遇到“npm install”

Failed to execute goal on project atlas-graphdb-janus: Could not resolve dependencies for project org.apache.atlas:atlas-graphdb-janus:jar:1.1.0: Could not find artifact com.sleepycat:je:jar:7.4.5 in nexus (http://maven.aliyun.com/nexus/content/groups/public/)

在這裏插入圖片描述
解決:下載安裝nodejs 地址:https://nodejs.org/en/
測試:npm -v;node -v

2: 網絡問題編譯不過如下圖
在這裏插入圖片描述
解決:這裏需要根據情況切換maven的倉庫:阿里雲和apache_central

在前面基礎部分,可以配置阿里雲(setting.xml)下載依賴吧飛速;當遇到阿里雲not find時候可以再切換到默認倉庫,即註釋掉你配置的阿里雲即可。

3.npm報錯

[ERROR] npm ERR! cb() never called!
[ERROR] 
[ERROR] npm ERR! This is an error with npm itself. Please report this error at:
[ERROR] npm ERR!     <https://github.com/npm/npm/issues>
[ERROR] 
[ERROR] npm ERR! A complete log of this run can be found in:
[ERROR] npm ERR!     /Users/xxx/.npm/_logs/2020-06-26T12_58_07_791Z-debug.log

解決:

以管理員模式打開cmd清除你的npm緩存 (mac電腦在npm前加sudo):
npm cache clean -f
清除完緩存後,安裝最新版本的Node helper:
 npm install -g n
然後安裝npm包管理助手
npm install -g n --force
用n助手安裝最新的穩定版的node
n stable

最後:編譯成功
在這裏插入圖片描述

三、初步使用(包括Hive hook配置)

1.備份並修改配置文件
配置文件地址

apache-atlas-sources-${project.version}/distro/target/conf/atlas-application.properties

備份並修改配置文件

cd apache-atlas-sources-${project.version}/distro/target/conf/
cp atlas-application.properties atlas-application.properties.bak

vi atlas-application.propertie

待修改配置項

#修改爲hbase zk地址
atlas.graph.storage.hostname=zk1,zk2,zk3
#solr修改爲es,並將Solr的相關配置全部註釋
atlas.graph.index.search.backend=elasticsearch
#添加
atlas.graph.index.search.hostname=localhost
atlas.graph.index.search.elasticsearch.client-only=true
#關閉內置kafka
atlas.notification.embedded=false
#修改kafka配置,zk地址,broke地址
atlas.kafka.zookeeper.connect=zk1:2181
atlas.kafka.bootstrap.servers=xxx:9092
#修改rest地址爲ip
atlas.rest.address=http://ip:21000
#hive hook
# whether to run the hook synchronously. false recommended to avoid delays in Hive query completion. Default: false
atlas.hook.hive.synchronous=false
# number of retries for notification failure. Default: 3
atlas.hook.hive.numRetries=3
# queue size for the threadpool. Default: 10000
atlas.hook.hive.queueSize=10000
 
# clusterName to use in qualifiedName of entities. Default: primary
atlas.cluster.name=primary

2.配置Hive Hook
通過Clouder Manager添加:集羣——》Hive——》配置——》搜索hive-site.xml
在這裏插入圖片描述

3.複製hook/hive

將源碼文件中/distro/target/apache-atlas-project.versionhivehook/apacheatlashivehook{project.version}-hive-hook/apache-atlas-hive-hook-{project.version}路徑下的hook/和hook-bin/都複製到/distro/target/apache-atlas-project.versionserver/apacheatlas{project.version}-server/apache-atlas-{project.version}路徑下。

4.添加缺失的Jar包

需要在/distro/target/apache-atlas-project.versionserver/apacheatlas{project.version}-server/apache-atlas-{project.version}/hook/hive/atlas-hive-plugin-impl/路徑下添加如下jar包:

jackson-module-jaxb-annotations-2.9.9.jar,下載地址:https://mvnrepository.com/artifact/com.fasterxml.jackson.module/jackson-module-jaxb-annotations/2.9.9

jackson-jaxrs-base-2.9.9.jar,下載地址:https://mvnrepository.com/artifact/com.fasterxml.jackson.jaxrs/jackson-jaxrs-base/2.9.9

jackson-jaxrs-json-provider-2.9.9.jar ,下載地址:https://mvnrepository.com/artifact/com.fasterxml.jackson.jaxrs/jackson-jaxrs-json-provider/2.9.9

將/distro/target/apache-atlas-project.versionserver/apacheatlas{project.version}-server/apache-atlas-{project.version}移到/opt/atlas

5.將atlas-application.properties添加到/opt/atlas/hook/hive/atlas-plugin-classloader-1.2.0.jar
原因:CDH環境每次啓動Hive時,會複製一份conf到process目錄下,導致配置缺失atlas-application.properties文件,使用報錯。在給各個hive節點複製jar之前,把配置文件添加到jar文件中,這樣就可以保證正常啓動。

zip -u atlas-plugin-classloader-1.2.0.jar atlas-application.properties 

6.集羣每臺機器添加依賴

cp  /opt/atlas/hook/hive/atlas-hive-plugin-impl/*  /opt/aux_path
cp /opt/atlas/hook/hive/*.jar  /opt/aux_path
#scp複製到每臺機器
scp -r /opt/aux_path/*  xxx:/opt/aux_path/

7.添加環境變量HIVE_AUX_JARS_PATH

通過Clouder Manager添加配置項:集羣——》Hive——》配置——》搜索HIVE_AUX_JARS_PATH
在這裏插入圖片描述
添加然後重啓HIVE

四、啓動Apache Atlas

1.啓動

export MANAGE_LOCAL_HBASE=false
export MANAGE_LOCAL_SOLR=false
bin/atlas_start.py
  Enter username for atlas :-

  Enter password for atlas :-

默認的用戶名密碼爲:admin/admin

2.登陸web
http://xxx:21000
在這裏插入圖片描述
在這裏插入圖片描述
3.導入HIVE表
完成上一步已經成功啓動了atlas,但還沒有數據,需要導入已有的HIVE表信息

# HIVE_HOME根據自己CDH環境對應修改
export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hive
#拷貝配置,不然報錯“org.apache.atlas.AtlasException: Failed to load application properties”
cp conf/atlas-application.properties /etc/hive/conf/

#導入所有的庫和表
/opt/atlas/hook-bin/import-hive.sh
# 導入指定庫和表
./import-hive.sh [-d <database regex> OR --database <database regex>] [-t <table regex> OR --table <table regex>]
# 導入多個庫和表
./import-hive.sh [-f <filename>]
     File Format:
             database1:tbl1
             database1:tbl2
             database2:tbl1

最後查看/opt/atlas/logs/import-hive.log日誌看導入是否正常

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章