Atlas-元数据管理

Atlas-元数据管理,第1张

Atlas-元数据管理

目录
  • Atlas概述
  • Atlas安装环境准备
  • 安装Atlas
  • Atlas 集成 Hbase
  • Atlas 集成Solr
  • Atlas 集成Kafka
  • Atlas Server配置
  • Atlas 集成Hive
  • Atlas启动
  • Atlas使用
    • Hive元数据初次导入
    • Hive元数据增量同步
  • 查看血缘依赖
    • 表血缘依赖
    • 字段血缘依赖
  • Atlas源码编译
    • 安装maven
    • 编译Atlas源码
  • Atlas内存配置
  • 配置用户名密码
    • 解采用文件方式修改用户名和密码设置
    • 修改密码为czs

Atlas概述

为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,形成数据字典。数据字典可以查到hive库的释义,表的介绍以及字段的解释,表与表之间,字段与字段之间的血缘依赖

Atlas安装环境准备

Atlas安装分为:集成自带的Hbase+Solr;集成外部的Hbase+Solr。通常企业开发中选择集成外部的 Hbase+Solr,方便项目整体进行集成 *** 作。Atlas安装前需保证服务器已有hadoop、mysql、zookeeper、kafka、hive、hbase、solr

安装Atlas
tar -zxvf apache-atlas-2.1.0-server.tar.gz -C /opt/module/

Atlas 集成 Hbase

修改atlas/conf/atlas-application.properties配置文件中的以下参数(zookeeper集群地址)

atlas.graph.storage.hostname=hadoop102:2181,hadoop103:2181,hadoop104:2181

修改atlas/conf/atlas-env.sh配置文件,增加以下内容

export Hbase_CONF_DIR=/opt/module/hbase/conf
Atlas 集成Solr

修改atlas/conf/atlas-application.properties配置文件中的以下参数(zookeeper集群地址)

atlas.graph.index.search.backend=solr
atlas.graph.index.search.solr.mode=cloud
atlas.graph.index.search.solr.zookeeper-url=hadoop102:2181,hadoop103:2181,hadoop104:2181

创建 solr collection

/opt/module/solr/bin/solr create -force -c vertex_index -d /opt/module/atlas/conf/solr -shards 3 - replicationFactor 2

/opt/module/solr/bin/solr create -force -c edge_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2

/opt/module/solr/bin/solr create -force -c fulltext_index -d /opt/module/atlas/conf/solr -shards 3 -replicationFactor 2
Atlas 集成Kafka

修改atlas/conf/atlas-application.properties配置文件中的以下参数(zookeeper集群地址)(hadoop集群地址)

atlas.notification.embedded=false
atlas.kafka.data=/opt/module/kafka/data
atlas.kafka.zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181/kafka
atlas.kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092,hadoop104:9092
Atlas Server配置

修改atlas/conf/atlas-application.properties配置文件中的以下参数(zookeeper集群地址)

######### Server Properties #########
atlas.rest.address=http://hadoop102:21000
# If enabled and set to true, this will run setup steps when the server starts
atlas.server.run.setup.on.start=false
######### Entity Audit Configs #########
atlas.audit.hbase.tablename=apache_atlas_entity_audit
atlas.audit.zookeeper.session.timeout.ms=1000
atlas.audit.hbase.zookeeper.quorum=hadoop102:2181,hadoop103:2181,hadoop104:2181

记录性能指标,进入atlas/conf/路径,修改当前目录下的 atlas-log4j.xml(搜索perf_appender去掉注释)

Atlas 集成Hive

修改atlas/conf/atlas-application.properties配置文件中的以下参数

######### Hive Hook Configs #######
atlas.hook.hive.synchronous=false
atlas.hook.hive.numRetries=3
atlas.hook.hive.queueSize=10000
atlas.cluster.name=primary

修改Hive配置文件,在hive/conf/hive-site.xml 文件中增加以下参数,配置HiveHook。


 hive.exec.post.hooks
 org.apache.atlas.hive.hook.HiveHook

安装HiveHook

tar -zxvf apache-atlas-2.1.0-hive-hook.tar.gz

将HiveHook依赖复制到Atlas安装路径

cp -r apache-atlas-hive-hook-2.1.0/* /opt/module/atlas

修改hive/conf/hive-env.sh 配置文件(增加如下参数)

export HIVE_AUX_JARS_PATH=/opt/module/atlas/hook/hive

将Atlas配置文件atlas/conf/atlas-application.properties拷贝到hive/conf目录

/opt/module/atlas/conf/atlas-application.properties /opt/module/hive/conf/
Atlas启动
bin/atlas_start.py

错误信息查看路径:atlas/logs/*.out 和application.log,停止Atlas服务命令为atlas_stop.py

访问Atlas的WebUIhttp://hadoop102:21000,账号admin密码admin

Atlas使用

Atlas其主要工作是同步各服务的元数据,并构建元数据实体之间的关联关系,然后对所存储的元数据建立索引,最终未用户提供数据血缘查看及元数据检索等功能。Atlas在安装之初,需手动执行一次元数据的全量导入,后续Atlas便会利用HiveHook增量同步Hive的元数据。

Hive元数据初次导入

Atlas提供了一个Hive元数据导入的脚本,直接执行该脚本,即可完成Hive元数据的初次全量导入。

atlas/hook-bin/import-hive.sh

按提示输入用户名:admin;输入密码:admin

搜索 hive_table类型的元数据,可已看到Atlas已经拿到Hive元数据

Hive元数据增量同步

Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行 DDL 语 句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系。

查看血缘依赖 表血缘依赖

字段血缘依赖

Atlas源码编译 安装maven

配置maven环境变量

#MAVEN_HOME
export MAVEN_HOME=/opt/module/maven
export PATH=$PATH:$MAVEN_HOME/bin

修改 setting.xml,指定为阿里云


 nexus-aliyun
 central
 Nexus aliyun
http://maven.aliyun.com/nexus/content/groups/public


 UK
 UK Central
 http://uk.maven.org/maven2
 central


 repo1
 central
 Human Readable Name for this Mirror.
 http://repo1.maven.org/maven2/


 repo2
 central
 Human Readable Name for this Mirror.
 http://repo2.maven.org/maven2/

编译Atlas源码

解压apache-atlas-2.1.0-sources.tar.gz

tar -zxvf apache-atlas-2.1.0-sources.tar.gz -C /opt/module/

下载Atlas依赖

export MAVEN_OPTS="-Xms2g -Xmx2g"

cd /opt/module/apache-atlas-sources-2.1.0/

mvn clean -DskipTests install

mvn clean -DskipTests package -Pdis

#一定要在${atlas_home}执行
cd distro/target/

mv apache-atlas-2.1.0-server.tar.gz /opt/software/

mv apache-atlas-2.1.0-hive-hook.tar.gz /opt/software/

执行过程比较长,会下载很多依赖,大约需要半个小时,期间如果报错很有可能是因为TimeOut造成的网络中断,重试即可。

Atlas内存配置

如果计划存储数万个元数据对象,建议调整参数值获得最佳的JVM GC性能。以下是常见的服务器端选项

修改配置文件atlas/conf/atlas-env.sh

#设置 Atlas 内存
export ATLAS_SERVER_OPTS="-server -XX:SoftRefLRUPolicyMSPerMB=0 
-XX:+CMSClassUnloadingEnabled -XX:+UseConcMarkSweepGC -
XX:+CMSParallelRemarkEnabled -XX:+PrintTenuringDistribution -
XX:+HeapDumponOutOfMemoryError -
XX:HeapDumpPath=dumps/atlas_server.hprof -Xloggc:logs/gc-worker.log -verbose:gc -XX:+UseGCLogFileRotation -
XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1m -
XX:+PrintGCDetails -XX:+PrintHeapAtGC -XX:+PrintGCTimeStamps"

#建议 JDK1.7 使用以下配置
export ATLAS_SERVER_HEAP="-Xms15360m -Xmx15360m -XX:MaxNewSize=3072m -XX:PermSize=100M -XX:MaxPermSize=512m"

#建议 JDK1.8 使用以下配置
export ATLAS_SERVER_HEAP="-Xms15360m -Xmx15360m -XX:MaxNewSize=5120m -XX:metaspaceSize=100M -XX:MaxmetaspaceSize=512m"

#如果是 Mac OS 用户需要配置
export ATLAS_SERVER_OPTS="-Djava.awt.headless=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc="

参数说明:-XX:SoftRefLRUPolicyMSPerMB 此参数对管理具有许多并发用户的查询繁重工作负载的GC性能特别有用

配置用户名密码

Atlas 支持以下身份验证方法:File、Kerberos 协议、LDAP 协议

通过修改配置文件atlas-application.properties文件开启或关闭三种验证方法

atlas.authentication.method.kerberos=true|false
atlas.authentication.method.ldap=true|false
atlas.authentication.method.file=true|false

如果两个或多个身份z验证方法设置为 true,如果较早的方法失败,则身份验证将回退 到后一种方法。例如,如果 Kerberos 身份验证设置为 true 并且 ldap 身份验证也设置为 true, 那么,如果对于没有 kerberos principal 和 keytab 的请求,LDAP 身份验证将作为后备方案。

解采用文件方式修改用户名和密码设置

打开atlas/conf/users-credentials.properties文件

vim users-credentials.properties

# username=group::sha256-password
admin=ADMIN::8c6976e5b5410415bde908bd4dee15dfb167a9c873fc4bb8a81f6f2ab448a918

rangertagsync=RANGER_TAG_SYNC::e3f67240f5117d1753c940dae9eea772d36ed5fe9bd9c94a300e40413f1afb9d

admin 是用户名称,密码是通过sha256加密的密码,默认密码为admin

修改密码为czs

获取sha256加密的czs密码

echo -n "czs"|sha256sum

2628be627712c3555d65e0e5f9101dbdd403626e6646b72

修改用户名和密码vim users-credentials.properties

# username=group::sha256-password
czs=ADMIN::2628be627712c3555d65e0e5f9101dbdd403626e6646b72(sha256密码)

rangertagsync=RANGER_TAG_SYNC::e3f67240f5117d1753c940dae9eea772d36ed5fe9bd9c94a300e40413f1afb9d

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5433171.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-11
下一篇 2022-12-11

发表评论

登录后才能评论

评论列表(0条)

保存