大数据怎么采集数据

大数据怎么采集数据,第1张

数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。我们今天就来看看大数据技术在数据采集方面采用了哪些方法:
1、离线采集:工具:ETL;在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。
2、实时采集:工具:Flume/Kafka;实时采集主要用在考虑流处理的业务场景,比如,用于记录数据源的执行的各种 *** 作活动,比如网络监控的流量管理、金融应用的股票记账和 web 服务器记录的用户访问行为。在流处理场景,数据采集会成为Kafka的消费者,就像一个水坝一般将上游源源不断的数据拦截住,然后根据业务场景做对应的处理(例如去重、去噪、中间计算等),之后再写入到对应的数据存储中。这个过程类似传统的ETL,但它是流式的处理方式,而非定时的批处理Job,些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
3、互联网采集:工具:Crawler, DPI等;Scribe是Facebook开发的数据(日志)收集系统。又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它支持、音频、视频等文件或附件的采集。爬虫除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。
4、其他数据采集方法对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做得很好。数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力企业实现数据驱动。

相信很多公司对于服务器上架,并没有过多的关注。可能是这样做的:一个壮丁,扛着服务器,往机柜上一丢,街上网线,电源线,好了,完事。

实际情况真的是那么简单吗?

同一业务只有1台服务器,其实已经说明了一切了,业务不怎么重要,不需要高可用,性能要求也一般般,这种情况下,只要考虑到机柜的利用率就可以了,有空机架随意放。

当同一业务需要多台服务器的时候,就需要更多考虑,第一个想到的是接入不同的机柜,可能因为机柜掉电需要立马赶往机房处理。因此为了保证电源安全可靠,接入不同的机柜是很有必要的,毕竟两个机柜之间电源相对独立,一个机柜掉电不至于影响另一个机柜。

当然现在同一个机柜内的电源通常都已经分成A/B两路,提高电源安全。但是机器未必都是双电源,即使是双电源,也有可能为了一个机柜多放些服务器,而不得不改用单电。总而言之,同一业务多台机器,最好接入不同机柜。

为了提供交换机的端口利用率,不得不用两个甚至三个机柜使用一台接入层交换机。而这个时候,服务器上架就需要考虑网络单点故障的问题了,否则,多台服务器都接入到同一个接入层,交换机宕机,业务也就全部完了。

大数据,大数据,那整个大数据集群之间的I/O是比其他而言比较大的了,而且大多数大数据服务器都有分布式存储,数据安全的问题不用太担心。

这时候就需要根据自身的网络架构来决定怎么上架机器了。

如果接入层到核心层之前的带宽只有10G,那还是将整个大数据集群放在同一个接入层交换机下,因为大数据集群之间的I/O需求大,一不小心可能就把整个上行链路带宽给打满,如果该接入层交换机下面还有其他业务接入,那就惨了。

而要接入层到核心层的带宽只有4G,因为基本上不会有上行链路带宽的压力了。但是还是尽量接入到同一个接入层交换机。毕竟整个集群由于接入层崩溃而导致整个集群挂掉,也比接入不同的接入层导致整个集群半死不活的还好。

服务器上架需要协调好业务需求,网络高可用、电源高可用。权衡利弊,根据自身情况做好哦取舍才是最佳方案。

你这个数据量还是比较大的,相对的服务器配置要高一点,服务器主要的就是CPU 内存以及硬盘 分析数据要求数据读取速度要高的 所以也决定了不能用普通的硬盘 用SSD或者SAS硬盘好一点 服务器可以自己采购 ,可以用戴尔的或者IBM的 具体的看你那边的配置 ,机器的价格差不多要几万了,后期你那边如果在idc机房托管的话 还要一部分钱,具体的情况要看你那边具体情况了 详细情况咱们可以再聊一下


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13190069.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-18
下一篇 2023-06-18

发表评论

登录后才能评论

评论列表(0条)

保存