大数据数据采集工具简介_工具

随着大数据技术体系的发展，越来越多的企业应用大数据技术支撑自己的业务发展。数据采集作为大数据的起点，是企业主动获取数据的一种重要手段。数据采集的多样性、全面性直接影响数据质量。

企业获取数据的渠道分为内部和外部两个渠道。内部渠道包含自己建设的业务系统，如电商系统、门户网站、门户论坛等。外部渠道包含爬虫系统爬取的数据、三方合作平台数据、公共社交平台数据等。那么如何从这些渠道获取数据？下面简单地介绍一下常用的数据采集工具。

结构化数据采集工具。

结构化数据在分析型的原始数据占比比较大，大部分经过预处理进入数据仓库进一步多维分析和数据挖掘。常用的数据采集工具有：

1 Apache Flume

支持离线与实时数据导入，是数据集成的主要工具。

2 Apache Sqoop

主要使用JDBC等工具连接关系型数据库与Hadoop生态圈的文件系统，通过配置文件配置双向连接信息后，通过命令完成数据的导入导出。

半结构化数据采集工具

半结构化的数据多见于日志格式。对于日志采集的工具，比较常见的是

1 Logstash

Logstash与ElasticSearch、Kibana并称为ELK，是采集日志的黄金搭档。

2 Apache Flume也多用于日志文本类数据采集。

非结构化数据采集工具

1 DataX

DataX轻量级中间件，在关系型数据库导入导出性能比较优异。支持多种数据类型的导入导出。

流式数据采集工具

1 Kafka

性能优异超高吞吐量。

Binlog日志采集工具

1 Canal

基于MySQL数据库增量日志解析提供增量日志订阅和消费功能。

爬虫采集框架与工具

1 Java栈，Nutch2、WebMagic等。

2 Python栈，Scrapy、PySpider

3 第三方爬虫工具，八爪鱼、爬山虎、后羿等等。

一、背景

随着马蜂窝的逐渐发展，我们的业务数据越来越多，单纯使用 MySQL 已经不能满足我们的数据查询需求，例如对于商品、订单等数据的多维度检索。

使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后，随之而来的就是数据同步的问题。

二、现有方法及问题

对于数据同步，我们目前的解决方案是建立数据中间表。把需要检索的业务数据，统一放到一张MySQL 表中，这张中间表对应了业务需要的 Elasticsearch 索引，每一列对应索引中的一个Mapping 字段。通过脚本以 Crontab 的方式，读取 MySQL 中间表中 UTime 大于上一次读取时间的所有数据，即该段时间内的增量，写入Elasticsearch。

所以，一旦业务逻辑中有相应字段的数据变更，需要同时顾及 MySQL 中间表的变更；如果需要 Elasticsearch 中的数据即时性较高，还需要同时写入 Elasticsearch。

随着业务数据越来越多，MySQL 中间表的数据量越来越大。当需要在 Elasticsearch 的索引中新增 Mapping 字段时，相应的 MySQL 中间表也需要新增列，在数据量庞大的表中，扩展列的耗时是难以忍受的。

而且 Elasticsearch 索引中的 Mapping 字段随着业务发展增多，需要由业务方增加相应的写入 MySQL 中间表方法，这也带来一部分开发成本。

三、方案设计

1 整体思路

现有的一些开源数据同步工具，如阿里的 DataX 等，主要是基于查询来获取数据源，这会存在如何确定增量（比如使用utime字段解决等）和轮询频率的问题，而我们一些业务场景对于数据同步的实时性要求比较高。为了解决上述问题，我们提出了一种基于 MySQL Binlog 来进行 MySQL 数据同步到 Elasticsearch 的思路。Binlog 是 MySQL 通过 Replication 协议用来做主从数据同步的数据，所以它有我们需要写入 Elasticsearch 的数据，并符合对数据同步时效性的要求。

使用 Binlog 数据同步 Elasticsearch，业务方就可以专注于业务逻辑对 MySQL 的 *** 作，不用再关心数据向 Elasticsearch 同步的问题，减少了不必要的同步代码，避免了扩展中间表列的长耗时问题。

经过调研后，我们采用开源项目 go-mysql-elasticsearch 实现数据同步，并针对马蜂窝技术栈和实际的业务环境进行了一些定制化开发。

2 数据同步正确性保证

公司的所有表的 Binlog 数据属于机密数据，不能直接获取，为了满足各业务线的使用需求，采用接入 Kafka 的形式提供给使用方，并且需要使用方申请相应的 Binlog 数据使用权限。获取使用权限后，使用方以 Consumer Group 的形式读取。

这种方式保证了 Binglog 数据的安全性，但是对保证数据同步的正确性带来了挑战。因此我们设计了一些机制，来保证数据源的获取有序、完整。

1) 顺序性

通过 Kafka 获取 Binlog 数据，首先需要保证获取数据的顺序性。严格说，Kafka 是无法保证全局消息有序的，只能局部有序，所以无法保证所有 Binlog 数据都可以有序到达 Consumer。

但是每个 Partition 上的数据是有序的。为了可以按顺序拿到每一行 MySQL 记录的 Binglog，我们把每条 Binlog 按照其 Primary Key，Hash 到各个 Partition 上，保证同一条 MySQL 记录的所有 Binlog 数据都发送到同一个 Partition。

如果是多 Consumer 的情况，一个 Partition 只会分配给一个 Consumer，同样可以保证 Partition 内的数据可以有序的 Update 到 Elasticsearch 中。

2) 完整性

考虑到同步程序可能面临各种正常或异常的退出，以及 Consumer 数量变化时的 Rebalance，我们需要保证在任何情况下不能丢失 Binlog 数据。

利用 Kafka 的 Offset 机制，在确认一条 Message 数据成功写入 Elasticsearch 后，才 Commit 该条 Message 的 Offset，这样就保证了数据的完整性。而对于数据同步的使用场景，在保证了数据顺序性和完整性的情况下，重复消费是不会有影响的。

四、技术实现

1 功能模块

配置解析模块

负责解析配置文件（toml 或 json 格式），或在配置中心（Skipper）配置的 json 字符串。包括 Kafka 集群配置、Elasticsearch 地址配置、日志记录方式配置、MySQL 库表及字段与 Elasticsearch 的 Index 和 Mapping 对应关系配置等。

规则模块

规则模块决定了一条 Binlog 数据应该写入到哪个 Elasticsearch 索引、文档_id 对应的 MySQL 字段、Binlog 中的各个 MySQL 字段与索引 Mapping 的对应关系和写入类型等。

在本地化过程中，根据我们的业务场景，增加了对 MySQL 表各字段的 where 条件判断，来过滤掉不需要的 Binlog 数据。

Kafka 相关模块

该模块负责连接 Kafka 集群，获取 Binlog 数据。

Binlog 数据解析模块

原项目中的 Binlog 数据解析针对的是原始的 Binlog 数据，包含了解析 Replication 协议的实现。在我们的使用场景中，Binlog 数据已经是由 canal 解析成的 json 字符串，所以对该模块的功能进行了简化。

binlog json字符串示例

上面是一个简化的 binlog json 字符串，通过该条 binlog 的 database 和 table 可以命中一条配置规则，根据该配置规则，把 Data 中的 key-value 构造成一个与对应 Elasticsearch 索引相匹配的 key-value map，同时包括一些数据类型的转换：

Elasticsearch相关模块

Binlog 数据解析模块生成的 key-value map，由该模块拼装成请求_bulk 接口的 update payload，写入 Elasticsearch。考虑到 MySQL 频繁更新时对 Elasticsearch 的写入压力，key-value map 会暂存到一个 slice 中，每 200ms 或 slice 长度达到一定长度时（可以通过配置调整），才会调用 Elasticsearch 的_bulk 接口，写入数据。

2 定制化开发

1）适应业务需求

upsert

业务中使用的索引数据可能是来自多个不同的表，同一个文档的数据来自不同表的时候，先到的数据是一条 index，后到的数据是一条 update，在我们无法控制先后顺序时，需要实现 upsert 功能。在_bulk 参数中加入

Filter

实际业务场景中，可能业务需要的数据只是某张表中的部分数据，比如用 type 字段标识该条数据来源，只需要把 type=1或2的数据同步到 Elasticsearch 中。我们扩展了规则配置，可以支持对 Binlog 指定字段的过滤需求，类似：

2）快速增量

数据同步一般分为全量和增量。接入一个业务时，首先需要把业务现有的历史 MySQL 数据导入到 Elasticsearch 中，这部分为全量同步。在全量同步过程中以及后续增加的数据为增量数据。

在全量数据同步完成后，如果从最旧开始消费 Kafka，队列数据量很大的情况下，需要很长时间增量数据才能追上当前进度。为了更快的拿到所需的增量 Binlog，在 Consumer Group 消费 Kafka 之前，先获取各个 Topic 的 Partition 在指定时间的 offset 值，并 commit 这些 offset，这样在 Consumer Group 连接 Kafka 集群时，会从刚才提交的 offset 开始消费，可以立即拿到所需的增量 Binlog。

3）微服务和配置中心

项目使用马蜂窝微服务部署，为新接入业务提供了快速上线支持，并且在业务 Binlog 数据突增时可以方便快速的扩容 Consumer。

马蜂窝配置中心支持了各个接入业务的配置管理，相比于开源项目中的 toml 格式配置文件，使用配置中心可以更方便的管理不同业务不同环境的配置。

五、日志与监控

从上图中可以看出，订单各个表的数据同步延时平均在 1s 左右。把延时数据接入 ElastAlert，在延时数据过多时发送报警通知。

另一个监控指标是心跳检测，单独建立一张独立于业务的表，crontab 脚本每分钟修改一次该表，同时检查上一次修改是否同步到了指定的索引，如果没有，则发送报警通知。该心跳检测，监控了整个流程上的 Kafka、微服务和 ES，任何一个会导致数据不同步的环节出问题，都会第一个接到通知。

六、结语

目前接入的最重要业务方是电商的订单索引，数据同步延时稳定在 1s 左右。这次的开源项目本地化实践，希望能为一些有 Elasticsearch 数据同步需求的业务场景提供帮助。

Clickhouse堪称OLAP领域的黑马，最近发布的几个版本在多表关联分析上也有了极大的性能提升，尤其是还引入了MaterializeMySQL Database Engine做到了实时对齐业务线mysql中的数据。

采样修饰符只有在mergetree engine表中才有效，且在创建表时需要指定采样策略；

clickhouse不支持设置多数据目录，为了提升数据io性能，可以挂载虚拟券组，一个券组绑定多块物理磁盘提升读写性能；多数查询场景SSD盘会比普通机械硬盘快2-3倍。

新版clickhouse提供了一个实验性的功能，那就是我们可以将clickhouse伪装成mysql的一个备库去实时对齐mysql中的数据，当mysql库表数据发生变化时会实时同步到clickhouse中；这样就省掉了单独维护实时spark/flink任务读取kafka数据再存入clickhouse的环节，大大降低了运维成本提升了效率。

为了避免因个别慢查询引起的服务雪崩问题，除了可以为单个查询设置超时以外，还可以配置周期熔断；在一个查询周期内，如果用户频繁进行慢查询 *** 作超出规定阈值后将无法继续进行查询 *** 作：

clickhouse权限管理与资源隔离

clickhouse高级功能上线之mysql实时数据同步

clickhouse如何构建复杂数据模型

clickhouse sql规范

题主是否想询问“tomcat8连接mysql数据库配置的方法”？连接方法：

1、安装tomcatjdk程序。

2、选择jdk160jrebinserver服务器。

3、登录管理员账号。

4、按照需求进行配置。

5、选择界面下方的定点连接。

6、选择合适的节点点击链接即可。

flink 中已经预置了 kafka 相关的数据源实现 FlinkKafkaConsumer010 ，先看下具体的实现：

kafka 的 Consumer 有一堆实现，不过最终都是继承自 FlinkKafkaConsumerBase ，而这个抽象类则是继承 RichParallelSourceFunction ，是不是很眼熟，跟自定义 mysql 数据源继承的抽象类 RichSourceFunction 很类似。

可以看到，这里有很多构造函数，我们直接使用即可。

说明：

a、这里直接使用 properties 对象来设置 kafka 相关配置，比如 brokers 、 zk 、 groupId 、 序列化 、 反序列化 等。

b、使用 FlinkKafkaConsumer010 构造函数，指定 topic 、 properties 配置

c、 SimpleStringSchema 仅针对 String 类型数据的序列化及反序列化，如果 kafka 中消息的内容不是 String ，则会报错；看下 SimpleStringSchema 的定义：

d、这里直接把获取到的消息打印出来。

两种方式，一种是MySQL自带的命令行窗口，一种是图形用户管理工具，前者类似于一个cmd窗口，日常管理维护数据库不是很方便，后者就是一个图形用户管理软件，种类繁多，使用起来也相对容易一些，下面我简单介绍一下这2种方式：

命令行窗口

1这个MySQL一般会自带，安装完MySQL后，直接可以在开始菜单中找到，如下：

2点击进去，输入密码后，就可以直接使用MySQL数据库，编写SQL代码了，效果如下，这里你也可以将MySQL添加到环境变量中，后面就可以直接使用命令“mysql-hlocalhost-uroot-p”连接，效果一样：

图形用户管理工具

这个就很多了，下面我简单介绍几个软件，基本功能都不相上下，选择适合自己的一个就行：

1MySQLworkbench：这个是MySQL官方自带的一个图形用户管理工具，免费、跨平台，可以直接在MySQL官网下载，支持数据库的迁移、设计、建模、备份和恢复等功能，可以直接新建查询，编写SQL语句，使用起来非常不错：

2Navicat：这也是一个非常不错的图形用户管理工具，大部分开发人员都应该听说或者使用过，界面干净整洁，可以直接建库建表、设计相关字段属性和主外键等，也支持数据库备份、恢复等功能，使用起来也非常方便：

3DataGrip：这是一个比较专业的数据库管理工具，Jetbrains公司的产品，支持目前几乎所有的主流关系型数据库，像MySQL，Oracle，SQLServer等，新建查新、建库建表、日常备份恢复等功能都非常不错，支持代码高亮、语法提示和自动补全，使用起来非常不错，值得一试：

这里就介绍这3个软件，当然，还有许多其他管理工具，像SQLyog，phpMyAdmin，HeidiSQL，SequelPro等都不错，这里就不一一介绍了，感兴趣的话，可以到网上搜一下相关软件和资料，非常多。

至此，这2种使用MySQL的方式都介绍完了。总的来说，第一种方式使用起来不是很方便，日常开发使用不多，图形用户管理工具的方式使用最多，也更方便日常维护管理数据库，建议初学者的话，还是使用图形用户管理工具，更容易一些，网上也有相关教程和资料，感兴趣的话，可以搜一下，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言。

以上就是关于大数据数据采集工具简介全部的内容，包括:大数据数据采集工具简介、基于 MySQL Binlog 的 Elasticsearch 数据同步实践、clickhouse优化最佳实践(易企秀)等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10194513.html

大数据数据采集工具简介

发表评论

评论列表（0条）