- Atlas概述
- Atlas安装环境准备
- 安装Atlas
- Atlas 集成 Hbase
- Atlas 集成Solr
- Atlas 集成Kafka
- Atlas Server配置
- Atlas 集成Hive
- Atlas启动
- Atlas使用
- Hive元数据初次导入
- Hive元数据增量同步
- 查看血缘依赖
- 表血缘依赖
- 字段血缘依赖
- Atlas源码编译
- 安装maven
- 编译Atlas源码
- Atlas内存配置
- 配置用户名密码
- 解采用文件方式修改用户名和密码设置
- 修改密码为czs
为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,形成数据字典。数据字典可以查到hive库的释义,表的介绍以及字段的解释,表与表之间,字段与字段之间的血缘依赖
Atlas安装环境准备Atlas安装分为:集成自带的Hbase+Solr;集成外部的Hbase+Solr。通常企业开发中选择集成外部的 Hbase+Solr,方便项目整体进行集成 *** 作。Atlas安装前需保证服务器已有hadoop、mysql、zookeeper、kafka、hive、hbase、solr
安装Atlastar -zxvf apache-atlas-2.1.0-server.tar.gz -C /opt/module/Atlas 集成 Hbase
修改atlas/conf/atlas-application.properties配置文件中的以下参数(zookeeper集群地址)
atlas.graph.storage.hostname=hadoop102:2181,hadoop103:2181,hadoop104:2181
修改atlas/conf/atlas-env.sh配置文件,增加以下内容
export Hbase_CONF_DIR=/opt/module/hbase/confAtlas 集成Solr
修改atlas/conf/atlas-application.properties配置文件中的以下参数(zookeeper集群地址)
atlas.graph.index.search.backend=solr atlas.graph.index.search.solr.mode=cloud atlas.graph.index.search.solr.zookeeper-url=hadoop102:2181,hadoop103:2181,hadoop104:2181
创建 solr collection
/opt/module/solr/bin/solr create -force -c vertex_index -d /opt/module/atlas/conf/solr -shards 3 - replicationFactor 2 /opt/module/solr/bin/solr create -force -c edge_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2 /opt/module/solr/bin/solr create -force -c fulltext_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2Atlas 集成Kafka
修改atlas/conf/atlas-application.properties配置文件中的以下参数(zookeeper集群地址)(hadoop集群地址)
atlas.notification.embedded=false atlas.kafka.data=/opt/module/kafka/data atlas.kafka.zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181/kafka atlas.kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092,hadoop104:9092Atlas Server配置
修改atlas/conf/atlas-application.properties配置文件中的以下参数(zookeeper集群地址)
######### Server Properties ######### atlas.rest.address=http://hadoop102:21000 # If enabled and set to true, this will run setup steps when the server starts atlas.server.run.setup.on.start=false ######### Entity Audit Configs ######### atlas.audit.hbase.tablename=apache_atlas_entity_audit atlas.audit.zookeeper.session.timeout.ms=1000 atlas.audit.hbase.zookeeper.quorum=hadoop102:2181,hadoop103:2181,hadoop104:2181
记录性能指标,进入atlas/conf/路径,修改当前目录下的 atlas-log4j.xml(搜索perf_appender去掉注释)
Atlas 集成Hive修改atlas/conf/atlas-application.properties配置文件中的以下参数
######### Hive Hook Configs ####### atlas.hook.hive.synchronous=false atlas.hook.hive.numRetries=3 atlas.hook.hive.queueSize=10000 atlas.cluster.name=primary
修改Hive配置文件,在hive/conf/hive-site.xml 文件中增加以下参数,配置HiveHook。
hive.exec.post.hooks org.apache.atlas.hive.hook.HiveHook
安装HiveHook
tar -zxvf apache-atlas-2.1.0-hive-hook.tar.gz
将HiveHook依赖复制到Atlas安装路径
cp -r apache-atlas-hive-hook-2.1.0/* /opt/module/atlas
修改hive/conf/hive-env.sh 配置文件(增加如下参数)
export HIVE_AUX_JARS_PATH=/opt/module/atlas/hook/hive
将Atlas配置文件atlas/conf/atlas-application.properties拷贝到hive/conf目录
/opt/module/atlas/conf/atlas-application.properties /opt/module/hive/conf/Atlas启动
bin/atlas_start.py
错误信息查看路径:atlas/logs/*.out 和application.log,停止Atlas服务命令为atlas_stop.py
访问Atlas的WebUIhttp://hadoop102:21000,账号admin密码admin
Atlas使用Atlas其主要工作是同步各服务的元数据,并构建元数据实体之间的关联关系,然后对所存储的元数据建立索引,最终未用户提供数据血缘查看及元数据检索等功能。Atlas在安装之初,需手动执行一次元数据的全量导入,后续Atlas便会利用HiveHook增量同步Hive的元数据。
Hive元数据初次导入Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入。
atlas/hook-bin/import-hive.sh
按提示输入用户名:admin;输入密码:admin
搜索 hive_table类型的元数据,可已看到Atlas已经拿到Hive元数据
Hive元数据增量同步Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行 DDL 语 句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系。
查看血缘依赖 表血缘依赖 字段血缘依赖 Atlas源码编译 安装maven配置maven环境变量
#MAVEN_HOME export MAVEN_HOME=/opt/module/maven export PATH=$PATH:$MAVEN_HOME/bin
修改 setting.xml,指定为阿里云
编译Atlas源码nexus-aliyun central Nexus aliyun http://maven.aliyun.com/nexus/content/groups/public UK UK Central http://uk.maven.org/maven2 central repo1 central Human Readable Name for this Mirror. http://repo1.maven.org/maven2/ repo2 central Human Readable Name for this Mirror. http://repo2.maven.org/maven2/
解压apache-atlas-2.1.0-sources.tar.gz
tar -zxvf apache-atlas-2.1.0-sources.tar.gz -C /opt/module/
下载Atlas依赖
export MAVEN_OPTS="-Xms2g -Xmx2g" cd /opt/module/apache-atlas-sources-2.1.0/ mvn clean -DskipTests install mvn clean -DskipTests package -Pdis #一定要在${atlas_home}执行 cd distro/target/ mv apache-atlas-2.1.0-server.tar.gz /opt/software/ mv apache-atlas-2.1.0-hive-hook.tar.gz /opt/software/
执行过程比较长,会下载很多依赖,大约需要半个小时,期间如果报错很有可能是因为TimeOut造成的网络中断,重试即可。
Atlas内存配置如果计划存储数万个元数据对象,建议调整参数值获得最佳的JVM GC性能。以下是常见的服务器端选项
修改配置文件atlas/conf/atlas-env.sh
#设置 Atlas 内存 export ATLAS_SERVER_OPTS="-server -XX:SoftRefLRUPolicyMSPerMB=0 -XX:+CMSClassUnloadingEnabled -XX:+UseConcMarkSweepGC - XX:+CMSParallelRemarkEnabled -XX:+PrintTenuringDistribution - XX:+HeapDumponOutOfMemoryError - XX:HeapDumpPath=dumps/atlas_server.hprof -Xloggc:logs/gc-worker.log -verbose:gc -XX:+UseGCLogFileRotation - XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1m - XX:+PrintGCDetails -XX:+PrintHeapAtGC -XX:+PrintGCTimeStamps" #建议 JDK1.7 使用以下配置 export ATLAS_SERVER_HEAP="-Xms15360m -Xmx15360m -XX:MaxNewSize=3072m -XX:PermSize=100M -XX:MaxPermSize=512m" #建议 JDK1.8 使用以下配置 export ATLAS_SERVER_HEAP="-Xms15360m -Xmx15360m -XX:MaxNewSize=5120m -XX:metaspaceSize=100M -XX:MaxmetaspaceSize=512m" #如果是 Mac OS 用户需要配置 export ATLAS_SERVER_OPTS="-Djava.awt.headless=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc="
参数说明:-XX:SoftRefLRUPolicyMSPerMB 此参数对管理具有许多并发用户的查询繁重工作负载的GC性能特别有用
配置用户名密码Atlas 支持以下身份验证方法:File、Kerberos 协议、LDAP 协议
通过修改配置文件atlas-application.properties文件开启或关闭三种验证方法
atlas.authentication.method.kerberos=true|false atlas.authentication.method.ldap=true|false atlas.authentication.method.file=true|false
如果两个或多个身份z验证方法设置为 true,如果较早的方法失败,则身份验证将回退 到后一种方法。例如,如果 Kerberos 身份验证设置为 true 并且 ldap 身份验证也设置为 true, 那么,如果对于没有 kerberos principal 和 keytab 的请求,LDAP 身份验证将作为后备方案。
解采用文件方式修改用户名和密码设置打开atlas/conf/users-credentials.properties文件
vim users-credentials.properties # username=group::sha256-password admin=ADMIN::8c6976e5b5410415bde908bd4dee15dfb167a9c873fc4bb8a81f6f2ab448a918 rangertagsync=RANGER_TAG_SYNC::e3f67240f5117d1753c940dae9eea772d36ed5fe9bd9c94a300e40413f1afb9d
admin 是用户名称,密码是通过sha256加密的密码,默认密码为admin
修改密码为czs获取sha256加密的czs密码
echo -n "czs"|sha256sum 2628be627712c3555d65e0e5f9101dbdd403626e6646b72
修改用户名和密码vim users-credentials.properties
# username=group::sha256-password czs=ADMIN::2628be627712c3555d65e0e5f9101dbdd403626e6646b72(sha256密码) rangertagsync=RANGER_TAG_SYNC::e3f67240f5117d1753c940dae9eea772d36ed5fe9bd9c94a300e40413f1afb9d
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)