YARN大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许多个应用程序运行在一个集群中,并将资源按需分配给它们,这大大提高了资源利用率。其次,YARN允许各类短作业和长服务混合部署在一个集群中,并提供了容错、资源隔离及负载均衡等方面的支持,这大大简化了作业和服务的部署和管理成本。
进入集群主页
选择需要添加服务的集群,添加服务
继续
分配角色
完成
与客户端交互,处理来自客户端的请求
启动和管理ApplicationMaster,并在它运行失败时重新启动它
管理NodeManager ,接收来自NodeManager 的资源汇报信息,并向NodeManager下达管理指令
资源管理与调度,接收来自ApplicationMaster 的资源申请请求,并为之分配资源
启动和监视节点上的计算容器
以心跳的形式向RM汇报本节点上的资源使用情况和各个Container的运行状态
接收并处理来自AM的Container启动/停止等各种请求
Hadoop 分布式文件系统 (HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
进入Cloudera Manager管理页面
选择需要添加服务的集群,添加服务
继续
分配HDFS中的角色
继续
维护着文件系统树及整棵树内所有的文件和目录,HDFS 文件系统中处理客服端读写请求、管理数据块(Block )的映射信息、配置副本策略等管理工作
DataNode 执行实际 *** 作。DataNode 表示实际存储的数据块,同时可以执行数据块的读写 *** 作
要作用是定期将编辑日志和元数据信息合并,防止编辑日志文件过大,并且能保证其信息与namenode信息保持一致。它不是NameNode的备份,但可以做备份,其主要工作是帮助NameNode合并editslog,减少NameNode的启动时间。
允许HDFS作为客户端本地文件系统的一部分挂载在本地文件系统
基于HTTP *** 作hadoop hdfs文件系统
Hive ->配置 ->搜索 sentry ->勾选Sentry ->保存更改 ->重启服务
HDFS ->配置 ->搜索 acl ->启用访问控制列表和Sentry同步 ->保存更改 ->重启服务
Hue中集成了一个安全模块用来界面化 *** 作Sentry。设置Hue以管理Sentry权限时,请确保正确设置了用户和组。连接到Sentry的每个Hue用户必须与服务器 *** 作系统中的用户相同,以便Sentry可以对Hue用户进行身份验证。Hue中的用户group也同样要与本地 *** 作系统中的用户group相同。
Hue ->配置 ->搜索 sentry ->勾选Sentry ->保存更改
Sentry ->配置 ->搜索 admin ->勾选Sentry ->保存更改 ->重启服务
为Hive启用Sentry后会导致HiveServer2的部分属性无法在客户端运行时进行修改。具体受限制的属性参数如下,当然你依旧可以在HiveServer2服务端进行参数修改。
保护Hive Metastore是非常重要的。如果你的集群没有启用Kerberos,请将sentry.hive.testing.mode属性设置为true,以允许Sentry使用较弱的身份验证机制。
注意:
Cloudera强烈建议不要在生产环境中配置该参数。该参数仅适用于Sentry的测试模式,可以用于你的测试环境
Hive->配置 ->搜索 sentry-site.xml->添加下面配置 ->保存更改 ->重启服务
当HiveServer2和Beeline客户端不在同一台主机时,不能使用ADD JAR命令。作为替代的,在加载jar包时只能通过在Hive服务中配置hive.reloadable.aux.jars.path路径。启用Sentry时,创建永久函数和临时函数的过程存在一些差异。
参考:
https://www.cloudera.com/documentation/enterprise/latest/topics/sg_sentry_service_config.html
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)