数据采集—数据采集技术

数据采集—数据采集技术,第1张

数据采集数据采集技术 数据采集技术 综述

数据采集是大数据产业的基石。

数据采集的重点不在于数据本身,而在于如何才能解决数据运营中的实际商业问题。通过对数据采集技术获取的高质量数据的分析和挖掘,得到的结果对决策行为具有较高的指导性作用

数据采集的定义

数据采集,又称数据获取,是利用一种程序或装置从系统外部采集数据,经过数据清洗,最终输入到存储系统中

数据采集的特点
  1. 自动化:以高自动化的方式采集并存入
  2. 全面化:涵盖了全量采集和增量采集,不对数据采样
  3. 多样化:采集方式不单一
  4. 丰富化:采集的数据丰富,不只有基本的数据
数据的类型
  1. 结构化数据:具有固定格式或有限长度的数据,元数据、数据库
  2. 半结构化数据:非关系模型的,且有基本固定结构模式的数据,log、xml、json
  3. 非结构化数据:数据结构不规则或不完整,没有已经确定的数据模型,办公文档、图片、图像、音视频
数据采集的范围
  1. 数据库数据
  2. 业务系统的日志
  3. 互联网应用数据
  4. 容器的日志
  5. *** 作系统的日志
  6. 网络设备的日志
数据采集的要求
  1. 全面:要求数据量足够且有分析价值,数据面广能够支撑分析需求
  2. 多维:采集的数据能够灵活、快速的自定义数据多种属性和不同类型,从而满足不同的分析需求
  3. 高效:采集数据要有针对性的采集,避免采集无用数据,浪费资源
  4. 及时:对于实时监控性质的系统,要能够实时采集数据并上报
采集流程 网页爬取流程
  1. 采集:通过python编写代码,爬取网页
  2. 清洗:通过python编写代码,对原网页数据进行拆分,抽取想要的信息
  3. 存储:通过python编写代码,将数据存入数据库或文件
log数据采集
  1. 采集:通过采集工具filebeat等配置,完成采集
  2. 清洗:通过logstash等来接收原始的日志数据并拆分验证
  3. 存储:通过logstash将采集结果存入数据库或文件

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5604974.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存