大数据方面核心技术有哪些

大数据方面核心技术有哪些,第1张

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。

1、数据采集与预处理:FlumeNG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。

2、数据存储:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。

3、数据清洗:MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算。

4、数据查询分析:Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

5、数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。

Kibana4简单使用

<center>

# ELK日志系统使用说明 #

</center>

k3与k4的对比

![](>

我们这里用到的是 filebeat+elk(elasticsearch+logstash+kibana) 来进行系统日志的收集。filebeat安装在各个服务器中,Logstash+ElasticSearch+Kibana安装在一台专门用于基础服务的服务器上。

Filebeat是一个轻量级的托运人,用于转发和集中日志数据 Filebeat作为代理安装在服务器上,监视您指定的日志文件或位置,收集日志事件,并将它们转发到 ElasticSearch Logstash 进行索引

官方中文文档: >

根据安全的3A要求,ES的安全需求分为以下几点:

此外ES是一款在网络上提供服务的产品,其通讯流量同样需要进行加密。

PS:最近根据之前写的文档做了一遍,发现还是有很多缺失的部分,因此重新做了一下更新。

ES的x-pack套件提供了基础的账号认证功能,其功能称为Realm。根据付费情况不同,Realm模块提供不同的认证能力。

此外还有一些开源的解决方案,此处不做赘述。

Realm的开启方式:

在ES启动或者配置文件中进行配置:

bin/elasticsearch -E xxx -E xpacksecurityenabled=true

需要注意的是,打开Realm后,需要根据后文的配置将集群内部通讯加密功能打开,否则进行下一步时会报错,目前我尝试的是74版本,其他版本:

这个后来我经过研究发现,如果是使用basic类型的license,那么如果开启了x-pack的安全功能,传输层的ssl加密功能是一定要开启的。但是,如果使用trial类型的license,那么可以选择只开启安全功能,但是不启用传输层加密。不知道这是一个实现上的bug还是故意为之。

开启方法:

设置默认的用户和组:

bin/elasticsearch-setup-passwords interactive

这个命令名称在74版本上似乎和有些资料中描述的不太一致。

控制台输出:

为kibana设置用户和密码,修改kibanayml:

ES会提供一些默认账号供使用,使用者也可以自己创建账号,并为其赋予相应的权限。

我自己配置了以后,使用kibana账号登录kibana居然登录不上,后来换成了elastic账号才能够正常登入kibana,具体原因没有研究,后面有机会再看。

>

以上就是关于大数据方面核心技术有哪些全部的内容,包括:大数据方面核心技术有哪些、如何使用 kibana 分析 mysql 数据、filebeat+elasticsearch+logstash+kibana收集系统日志(docker)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9553781.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存