大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。
1、数据采集与预处理:FlumeNG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。
2、数据存储:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
3、数据清洗:MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算。
4、数据查询分析:Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
5、数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。
Kibana4简单使用
<center>
# ELK日志系统使用说明 #
</center>
k3与k4的对比
![](>
我们这里用到的是 filebeat+elk(elasticsearch+logstash+kibana) 来进行系统日志的收集。filebeat安装在各个服务器中,Logstash+ElasticSearch+Kibana安装在一台专门用于基础服务的服务器上。
Filebeat是一个轻量级的托运人,用于转发和集中日志数据 Filebeat作为代理安装在服务器上,监视您指定的日志文件或位置,收集日志事件,并将它们转发到 ElasticSearch 或 Logstash 进行索引
官方中文文档: >
根据安全的3A要求,ES的安全需求分为以下几点:
此外ES是一款在网络上提供服务的产品,其通讯流量同样需要进行加密。
PS:最近根据之前写的文档做了一遍,发现还是有很多缺失的部分,因此重新做了一下更新。
ES的x-pack套件提供了基础的账号认证功能,其功能称为Realm。根据付费情况不同,Realm模块提供不同的认证能力。
此外还有一些开源的解决方案,此处不做赘述。
Realm的开启方式:
在ES启动或者配置文件中进行配置:
bin/elasticsearch -E xxx -E xpacksecurityenabled=true
需要注意的是,打开Realm后,需要根据后文的配置将集群内部通讯加密功能打开,否则进行下一步时会报错,目前我尝试的是74版本,其他版本:
这个后来我经过研究发现,如果是使用basic类型的license,那么如果开启了x-pack的安全功能,传输层的ssl加密功能是一定要开启的。但是,如果使用trial类型的license,那么可以选择只开启安全功能,但是不启用传输层加密。不知道这是一个实现上的bug还是故意为之。
开启方法:
设置默认的用户和组:
bin/elasticsearch-setup-passwords interactive
这个命令名称在74版本上似乎和有些资料中描述的不太一致。
控制台输出:
为kibana设置用户和密码,修改kibanayml:
ES会提供一些默认账号供使用,使用者也可以自己创建账号,并为其赋予相应的权限。
我自己配置了以后,使用kibana账号登录kibana居然登录不上,后来换成了elastic账号才能够正常登入kibana,具体原因没有研究,后面有机会再看。
>
以上就是关于大数据方面核心技术有哪些全部的内容,包括:大数据方面核心技术有哪些、如何使用 kibana 分析 mysql 数据、filebeat+elasticsearch+logstash+kibana收集系统日志(docker)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)