Apache Kudu 入门（伪分布式）_安全

地址： >

一个项目中使用多个数据源的需求，我们在日常工作中时常会遇到。

以商城系统为例，有一个 MySQL 的数据库负责存储交易数据。公司还有一套 ERP 企业信息化管理系统，要求订单信息同步录入 ERP 数据库，便于公司统一管理，而该 ERP 系统采用的数据库为 SQL Server 。

此时，就可以在 Spring Boot 项目中配置多个数据源。另外，使用多数据源后，需要采用分布式事务来保持数据的完整性。

本小节我们使用 Spring Boot 开发一个商城系统的订单生成功能，订单信息同时进入 MySQL 与 SQL Server 数据库。

首先创建 MySQL 数据库 shop ，并新建订单表 order ，表结构如下：

order 表结构

然后创建 SQL Server 数据库 erpshop ，并新建订单表 erp_order ，表结构如下。注意 id 是自增长的唯一标识，out_id 是对应订单在 MySQL 数据库中的唯一标识，以便在两个库中比对订单。

erp_order 结构

接下来，我们开始实现 Spring Boot 后端项目，数据持久层采用 MyBatis 框架，同时访问两个数据源。

Spring Boot 版本选择 225 ，Group 为 comimooc ， Artifact 为 spring-boot-multidb，生成项目后导入 Eclipse 开发环境。

我们引入热部署依赖、 Web 依赖、数据库访问相关依赖及测试相关依赖，具体如下：

实例：

由于我们要同时访问两个数据库，所以需要在配置文件中添加两个数据源的配置信息。注意配置多数据源时， url 配置需要使用 springdatasourcedb1jdbc-url=xxx 的形式。

实例：

多个数据源的情况下，我们需要通过配置类，将数据源注册为组件放入 Spring 容器中。

实例：

通过这个配置类， Spring 容器中就有两个数据源组件，这两个组件分别采用 springdatasourcedb1 和 springdatasourcedb2 开头的配置信息。所以通过这两个组件，就能分别 *** 作 MySQL 数据源 1 和 SQL Sever 数据源 2 。

多数据源情况下， MyBatis 中的关键组件 SqlSessionFactory 和 SqlSessionTemplate 也需要单独配置，我们需要为两个数据源分别配置一套组件。

实例：

通过上面的配置类， comimoocspringbootmultidbmapper1 包中的 DAO 数据访问接口会自动调用 sqlSessionTemplate1 组件实现具体数据库 *** 作，而 sqlSessionTemplate1 *** 作的数据源已经通过配置类设置为 db1 。同时， DAO 数据访问接口对应的映射文件已经指定到 classpath:mapper1/ 目录去寻找。这样数据源 – DAO 数据访问接口 – 映射文件三者的对应关系就建立起来了。

数据源 2 的配置方法是一样的， comimoocspringbootmultidbmapper2 包中的 DAO 数据访问接口会自动调用 sqlSessionTemplate2 组件，其 *** 作的数据源即为 db2 ，其对应的映射文件指定到 classpath:mapper2/ 目录去寻找。

实例：

数据访问接口的位置已经在配置类指定，首先在 comimoocspringbootmultidbmapper1 创建 OrderDao ， *** 作的是数据源 1 中的 order 表。

实例：

然后在 comimoocspringbootmultidbmapper2 创建 ErpOrderDao ， *** 作的是数据源 2 中的 erporder 表。

实例：

这两个接口中使用的数据对象比较简单，代码如下：

实例：

分别针对 OrderDao 、 ErpOrderDao 编写对应的映射文件，然后按照配置类指定的位置，两个文件分别放到 resources/mapper1 和 resources/mapper2 目录下。

实例：

数据 *** 作接口与对应的映射文件均已编写完毕，现在可以通过测试类进行多数据源测试了，我们在测试类中同时向两个库插入记录。

实例：

运行测试方法后，两个数据库表中均新增数据成功，这样我们就成功的使用 Spring Boot 同时 *** 作了两个数据源。

采用多数据源之后，事务的实现方式也随之发生变化。当某个数据源 *** 作出现异常时，该数据源和其他数据源的事务都需要回滚。这种涉及多个数据源的事务，称为分布式事务，接来下我们就来具体实现一下。

在 pomxml 引入 Atomikos 事务管理器相关的依赖项， Atomikos 是一个开源的事务管理器，支持分布式事务。

实例：

需要将默认的数据源更换为支持分布式事务的数据源， MySQL 对应的数据源为 MysqlXADataSource ， SQL Server 对应的数据源为 SQLServerXADataSource 。

实例：

继续修改 DataSourceConfig 类，在其中配置分布式事务管理器组件。当项目中使用事务时，会通过配置的分布式事务管理器管理分布式事务 *** 作。

实例：

在测试方法上添加 @Transactional 开启事务，然后在两个数据源 *** 作中间模拟抛出异常。

实例：

此时运行测试类，可以发现数据源 1 的事务已回滚，验证成功！

在开发 Spring Boot 项目时，如果默认配置满足不了我们的需求，可以通过手工配置组件实现我们需要的功能。这些组件可能是各个公司提供的，我们根据相应文档，为其配置各个属性即可。

分布式Minio可以让你将多块硬盘（甚至在不同的机器上）组成一个对象存储服务。由于硬盘分布在不同的节点上，分布式Minio避免了单点故障。

在大数据领域，通常的设计理念都是无中心和分布式的。Minio分布式模式可以帮助你搭建一个高可用的对象存储服务，你可以使用这些存储设备，而不用考虑其真实物理位置。

分布式Minio采用纠删码来防范多个节点宕机和位衰减bit rot。

分布式Minio至少需要4个硬盘，使用分布式Minio自动引入了纠删码功能。

单机Minio服务存在单点故障，相反，如果是一个有N块硬盘的分布式Minio,只要有N/2硬盘在线，你的数据就是安全的。不过你需要至少有N/2+1个硬盘来创建新的对象。

例如，一个16节点的Minio集群，每个节点16块硬盘，就算8台服务器宕机，这个集群仍然是可读的，不过你需要9台服务器才能写数据。

注意，只要遵守分布式Minio的限制，你可以组合不同的节点和每个节点几块硬盘。比如，你可以使用2个节点，每个节点4块硬盘，也可以使用4个节点，每个节点两块硬盘，诸如此类。

Minio在分布式和单机模式下，所有读写 *** 作都严格遵守 read-after-write 一致性模型。

如果你了解Minio单机模式的搭建的话，分布式搭建的流程基本一样，Minio服务基于命令行传入的参数自动切换成单机模式还是分布式模式。

安装Minio - Minio快速入门

启动一个分布式Minio实例，你只需要把硬盘位置做为参数传给minio server命令即可，然后，你需要在所有其它节点运行同样的命令。

注意

目录创建

run：启动脚本及二进制文件目录；

data：数据存储目录；

/etc/minio：配置文件目录；

集群启动文件

配置为系统服务

将minio二进制文件上传到/data/minio/run目录

给所有涉及到的文件或目录添加权限！

集群启动

自学的困难就是，不知道该从哪里开始，才怎么学，没有一个系统的学习路径，现在黑马程序员最新上线了java学习路线图，非常好的解决了一个难题，可以去搜索看一下。

一、java基础

学习任何一门编程语言，首先要学习的是基础语法，开启Java学习的第一步，当然就是深入掌握计算机基础、编程基础语法，面向对象，集合、IO流、线程、并发、异常及网络编程，这些我们称之为JavaSE基础。当你掌握了这些内容之后，你就可以做出诸如：电脑上安装的迅雷下载软件、QQ聊天客户端、考勤管理系统等桌面端软件。

JavaSE基础是Java中级程序员的起点，是帮助你从小白到懂得编程的必经之路。

在Java基础板块中有6个子模块的学习：

技术树

二、数据库

互联网最具价值的是数据，任何编程语言都需要解决数据存储问题,而数据存储的关键技术是数据库。MySQL和Oracle都是广受企业欢迎的数据库管理系统。Java程序和数据库通信的最常见技术是JDBC，Druid和C3P0。学习这些数据库技术后，可以掌握数据库运维技术、复杂业务表结构设计规范、工作中常见的SQL *** 作、软件数据存储等。

数据库不仅仅是Java开发工程师的必学课程，也是其他语言都需要掌握的技能。用于对交互过程中客户的数据进行存储。

该板块包括关系型数据库和非关系型数据库。

例如：MySQL、oracle、redis、MongoDB等。数据库学习完毕后，可以将数据存储到数据库中，也可以通过SQL语句从数据库中查询数据，结合Java项目可以实现动态站点的数据的保存。

技术树

三、前端技术

浏览器展示给用户看到的网页就是前端，前端有三大基础技术分别为Html、CSS、JavaScript，这些学完后，为了做出更好、更炫的交互式体验效果，我们还需要学习jQuery、ElementUI、Vue、Ajax，以及打包工具webpack。学完这些技术后，我们可以开发微信小程序、响应式网站、移动端网站、开发类似京东一样的B2B2C商城、管理后台等。

Javaweb阶段包括前端、数据库和动态网页。Javaweb是互联网项目的入门课程，是学习后面高进阶课程的基础。

首先，我们先看一下前端板块。该板块主要包括如下几个模块：

学习前端技术后，可以完成类似京东、淘宝的前端工程的编写。

技术树

四、动态网页

掌握前端技术只能做静态网站，但它页面数据一成不变，而动态网站可以根据数据库中变更的数据实现不同的内容展示，应用更广泛，因此程序员必须要学会做动态网站。使用Java做动态网站，我们需要学习Servlet、Filter、Session、Cookie、JSP、EL表达式、JSTL等做动态网站的完整知识体系，学完可研发出OA系统、内容网站、BBS等。

动态网页是中级程序员服务器端编程的基础，是高级框架学习的必备课程，后期学习的框架、服务底层都是基于动态网页技术之上的。

该板块包括Javaweb核心技术、包括Servlet、Request、Response、Cookie和Session等，通过这些技术的学习可以完成动态站点开发，可更好的完成服务器端与客户的交互，让页面的数据“动”起来，做出小型的应用系统。

技术树

五、编程强化

前面学了JavaSE基础，但它在企业级应用中程序处理业务的效率并不高、扩展差，编程强化是对JavaSE基础的加强，将针对性的提高程序处理业务的执行效率、增强程序扩展性。编程强化将加强多线程高级学习，涉及线程内存、线程通信等技术。学完以后，能增加一个中级程序员的知识储备，无论在面试过程中还是将来技术的深入打一个良好的基础。

编程强化是对解决实际问题方面做一个深入的了解和应用，是对JavaSE基础的加强，对后期自动以框架和对一些服务框架的底层理解做支撑。

编程强化板块主要包括如下几个模块：多线程高级、涉及线程内存、线程通信等；JVM优化，对JVM底层进行调优来提高项目执行效率；NIO，同步非阻塞IO来提高效率。

学习该阶段，可以对原有项目进行优化从而使程序更快更稳定。

技术树

六、软件项目管理

公司开发都是团队协同开发，为更好的掌握实际开发，我们还需要学习常用的项目管理平台、版本控制器、项目构建工具以及自动化部署工具。项目开发一定是有版本升级的，管理好项目进度和版本需要Git、Maven、Sonar这样的系统平台。学习完软件项目管理后，将掌握整个项目实际开发过程以及整个项目开发过程中所使用协同开发工具。

JavaSE基础是Java中级程序员的起点，是帮助你从小白到懂得编程的必经之路。

在Java基础板块中有6个子模块的学习：基础语法，可帮助你建立基本的编程逻辑思维；面向对象，以对象方式去编写优美的Java程序；集合，后期开发中存储数据必备技术；IO，对磁盘文件进行读取和写入基础 *** 作；多线程与并发，提高程序效率；异常，编写代码逻辑更加健全；网络编程，应用服务器学习基础，完成数据的远程传输。

学习该阶段，可以完成一些简单的管理系统、坦克大战游戏、QQ通信等。

技术树

七、热门技术框架

Javaweb掌握后，已经具备企业中实际项目的开发能力了，但它开发效率低，代码量大，开发周期长、开发成本高。企业中广泛使用一些优秀的框架技术来解决上述问题，因此我们还需要学习框架技术，项目开发中主流的Java框架技术有SpringMVC、Spring、MyBatis、MyBatis Plus、SpringData等。这些框架技术都是一个优秀程序员所必备的技能。

使用Javaweb进行企业级开发是完全可以的，但是开发效率比较低，所以对常用的逻辑 *** 作进行封装就形成了框架，因此框架是企业开发的入门技能。

热门框架板块主流框架有如下几个：Spring框架，占据统治地位，其生态系统涉及各个方面解决方案；MyBatis框架，使用ORM思想对数据库进行 *** 作。

该板块学习后，就可以进行真实企业级项目开发了，做出的项目也会更加符合企业要求。

技术树

八、分布式架构

需要用到分布式微服务的技术。学习完该阶段课程，可以具备大型SOA架构和微服务架构能力，能掌握大型微服务项目必备技术和实际经验。企业发展过程中，业务量和用户量逐渐增加，为了保证系统的可用性，系统越做越复杂，研发人员增多，大家很难共同维护一个复杂的系统，往往修改部分内容，导致牵一发而动全身，所以我们需要升级系统架构，

随着互联网的发展，业务的复杂性和用户的体验性都需要提高，所以分布式架构出现了。该板块主要讲解的是分布式架构的相关解决方案。

主要包括如下模块：Dubbo，高性能的 RPC 服务发布和调用框架；SpringBoot，简化Spring应用的初始搭建以及开发过程；Spring Cloud，一系列框架的有序集合，如服务发现注册、配置中心、负载均衡、断路器、数据监控等。

该板块的学习，可以具备大型互联网项目开发的必备技术和实际经验，为进入BATJ打下基础

技术树

九、服务器中间件

在分布式系统架构中，服务与服务之间的异步通信，是非常常见的需求之一，消息中间件的诞生正是为了解决这类问题。目前市面上的主流消息中间件有RabbitMQ、RocketMQ、Kafka，我们将学习这3个消息中间件，实现分布式项目中的异步通信。学习完这些后，可以实现分布式项目的异步通信、分布式应用日志收集、分布式事务等。

中间件板块是大型互联网项目中必备的。服务中间件可以帮助各子模块间实现互相访问，消息共享或统一访问等功能。其包括远程服务框架中间件，例如阿里（Apache）的RPC框架Dubbo等；消息队列中间件，例如：阿里巴巴开源分布式中间件RocketMQ、高吞吐量消息发布和流处理服务Kafka等。

学习服务中间件是中级JavaEE工程师必要技术，也是JavaEE架构师必须精通的技术。

技术树

十、服务器技术

程序开发完成后，我们把它们打包部署到服务器中运行，所以我们需要学习常见的服务器技术，常见的服务器有Linux和Window server，Linux性能高，是当前主流。我们写好的项目需要用一个软件运行起来，这个软件叫web容器，我们需要在服务器上安装web容器来发布项目，当前主流的web容器有tomcat、jetty、nginx、undertow。

不管是使用原生Javaweb进行开发，还是使用框架进行开发，项目最终需要对外发布才能供全世界的人访问到，而服务器板块就可以解决这个问题，所以服务器是项目发布的必要技术。该板块包括虚拟化和web应用服务器的学习，主要包括如下几个模块：Vmware，虚拟机软件；Linux，专门用于服务器的系统；Nginx，集群部署时反向代理服务器；Tomcat，项目发布时主要使用的服务器。

该板块学习后，我们就可以把开发好的项目发布到服务器中，然后供你的小伙伴远程访问了，超酷！

技术树

十一、容器技术

具备了服务器 *** 作系统及web容器，我们就可以部署单机的站点，在分布式系统中，几十上百的服务，如果使用单机这种部署方式，会投入很高的人力，同时出错的几率也大。所以服务器虚拟化技术Docker也称为如今的必备技术了，Docker可以帮助运维人员实行快速部署，批量维护使用Kubernetes实现自动化部署、大规模可伸缩、应用容器管理。

容器化技术是近两年超级火的一个专题，通过容器化技术可以对环境进行打包，方便移植，大大提高了开发效率。该板块包括容器化技术Docker和其平台管理引擎Kubernetes，其中，Docker 是一个开源的应用容器引擎，可以打包应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的Linux或Windows 机器上，也可以实现虚拟化。而Kubernetes是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单并且高效。通过该板块的学习，你可以通过上述技术快速搭建环境，节省开发时间，提高开发效率。

技术树

十二、业务解决方案

企业开发中会遇到一些通用的业务场景，诸如：搜索引擎、缓存、定时任务、工作流、报表导出、日志管理、系统监控等，那么这些通用的解决方案也有现成优秀的免费开源中间件，可供使用。诸如：ElasticSearch、Lucene、Solr、redis、MongoDB、slf4J、ECharts、Quartz、POI等。业务解决方案课程的业务方案和技术难点，解决了企业开发中90%以上的痛点和难点。

虽然我们已经具备了基础技术和高阶技术，但是要想与企业开发相接轨，还需要对实际项目的业务解决方案进行探究。而此版块就是在实际业务场景中的真实解决方案集合，常用的业务解决方案有如下：搜索业务场景解决方案、日志收集与分析场景解决方案、工作流引擎场景解决方案、任务调度场景解决方案、地图开发平台场景解决方案、支付开放平台场景解决方案、图表可视化场景解决方案。通过分析实际业务来学习这个解决方案技术集，完全可以达到中级甚至高级工程师水平。

技术树

回到windows
-->
打开网络和共享中心
->
更改适配器设置
->
右键VMnet1
->
属性
->
双击IPv4
->
设置windows的IP：1921681100
子网掩码：2552552550
->
点击确定！

首先 Google 的入门三篇（GFS / Big Table / Map Reduce）是一定要读的，有个对分布式系统的基本认识，另外需要理解 lamport 老爷子的 logical clock 的思想，之后去读 Raft。
Raft 其实实现一个玩具还是比较容易的，真正难的是在原论文中没有提到的很多工程优化。但是按照原论文的几个 RPC 实现是没啥大问题的，就是有点慢另外吞吐上不去而已。
参考几个 go 的 raft 实现咯，比如 hashicorp 的那个(consul 这个可能测试少了点，也许有 bug)，c++ 的 logcabin （diego 自己写的不过性能呵呵）
几个工业级别的 raft 实现其实不太适合初学者，比如 coreos 的 etcd 和 pingcap 的 tikv（其实这两个 raft 实现本是同根生，都是源自 etcd 的 raft 实现，由 pingcap 和 coreos 两个团队互相维护和开发）这两个实现做了大量的工程优化，有些地方和原论文有点不一样。不过这两个不管是测试还是生产环境中的检验，都是其他 raft 实现不可比的。

随着信息技术的快速发展及互联网用户规模的急剧增长，计算机所存储的信息量正呈爆炸式增长，目前数据量已进入大规模和超大规模的海量数据时代，如何高效地存储、分析、处理和挖掘海量数据已成为技术研究领域的热点和难点问题。而如何采集和运营管理、分析这些数据也是大数据处理中一个至关重要的组成环节，这就需要相应的基础设施对其提供支持。针对这个需求，当前业界已有很多开源的消息系统应运而生，kafka就是一款当然非常流行的消息系统。

Kafka是一款开源的、轻量级的、分布式、可分区和具有复制备份的（Replicated）、基于ZooKeeper协调管理的分布式流平台的功能强大的消息系统。作为一个流式处理平台，必须具备以下3个关键特性：
1) 能够允许发布和订阅流数据。

2) 存储流数据时提供相应的容错机制。

3) 当流数据到达时能够被及时处理。

消息流系统kafka的基本结构包括生产者和消费者，以及kafka集群。
生产者负责生产消息，将消息写入Kafka集群；消费者从Kafka集群中拉取消息。

消息是Kafka通信的基本单位，由一个固定长度的消息头和一个可变长度的消息体构成。

Kafka将一组消息抽象归纳为一个主题（Topic），也就是说，一个主题是对消息的一个分类。生产者将消息指定主题发送到kafka集群，消费者订阅主题或主题的某些分区进行消费。

Kafka将一组消息归纳为一个主题，而每个主题又被分成一个或多个分区(Partition) 。每个分区由一系列有序、不可变的消息组成，是一个有序队列。每个分区在物理上对应为一个文件夹，分区的命名规则为主题名称后接“—”连接符，之后再接分区编号，分区编号从0开始，编号最大值为分区的总数减1。

分区使得Kafka在并发处理上变得更加容易，理论上来说，分区数越多吞吐量越高，但这要根据集群实际环境及业务场景而定。同时，分区也是Kafka保证消息被顺序消费以及对消息进行负载均衡的基础。
疑问和答案：分区如何保证消息被顺序消费？每个分区内的消息是有序的，但不同分区间如何保证？猜测是分区从存储空间上比较大，分区个数少。顺序消费的主要因素在分区内的消息，分区间的可以忽略。高吞吐率顺序写磁盘估计也是这个原因。

Kafka只能保证一个分区之内消息的有序性，并不能保证跨分区消息的有序性。每条消息被追加到相应的分区中，是顺序写磁盘，因此效率非常高，这是Kafka高吞吐率的一个重要保证。同时与传统消息系统不同的是，Kafka并不会立即删除已被消费的消息，由于磁盘的限制消息也不会一直被存储，因此 Kafka提供两种删除老数据的策略，一是基于消息已存储的时间长度，二是基于分区的大小。这两种策略都能通过配置文件进行配置。
每个分区又有一至多个副本（Replica），分区的副本分布在集群的不同代理上，以提高可用性。
从存储角度上分析，分区的每个副本在逻辑上抽象为一个日志（Log）对象，即分区的副本与日志对象是一一对应的。每个主题对应的分区数可以在Kafka启动时所加载的配置文件中配置，也可以在创建主题时指定。当然，客户端还可以在主题创建后修改主题的分区数。
为什么副本要分Leader和Follower？如果没有Leader副本，就需要所有的副本都同时负责读/写请求处理，同时还得保证这些副本之间数据的一致性，假设有n个副本则需要有n×n条通路来同步数据，这样数据的一致性和有序性就很难保证。

为解决这个问题，Kafka选择分区的一个副本为Leader，该分区其他副本为Follower，只有 Leader副本才负责处理客户端读/写请求，Follower副本从Leader副本同步数据。
引入Leader副本后客户端只需与Leader副本进行交互，这样数据一致性及顺序性就有了保证。Follower副本从Leader副本同步消息，对于n个副本只需n-1条通路即可，这样就使得系统更加简单而高效。
副本Follower与Leader的角色并不是固定不变的，如果Leader失效，通过相应的选举算法将从其他Follower副本中选出新的Leader副本。
疑问：leader副本和follower副本是如何选出来的？通过zookeeper选举的嘛？

Kafka在ZooKeeper中动态维护了一个 ISR（In-sync Replica），即保存同步的副本列表，该列表中保存的是与Leader副本保持消息同步的所有副本对应的代理节点id。如果一个Follower副本宕机或是落后太多，则该Follower副本节点将从ISR列表中移除。本书用宕机来特指某个代理失效的情景，包括但不限于代理被关闭，如代理被人为关闭或是发生物理故障、心跳检测过期、网络延迟、进程崩溃等。

任何发布到分区的消息会被直接追加到日志文件的尾部（分区目录下以“log”为文件名后缀的数据文件），而每条消息在日志文件中的位置都会对应一个按序递增的偏移量。偏移量是一个分区下严格有序的逻辑值，它并不表示消息在磁盘上的物理位置。由于Kafka几乎不允许对消息进行随机读写，因此Kafka并没有提供额外索引机制到存储偏移量。

消费者可以通过控制消息偏移量来对消息进行消费，如消费者可以指定消费的起始偏移量。为了保证消息被顺序消费，消费者已消费的消息对应的偏移量也需要保存。需要说明的是，消费者对消息偏移量的 *** 作并不会影响消息本身的偏移量。旧版消费者将消费偏移量保存到ZooKeeper当中，而新版消费者是将消费偏移量保存到Kafka内部一个主题当中。当然，消费者也可以自己在外部系统保存消费偏移量，而无需保存到Kafka中。
推测：一个主题有多个分区，一个分区有多个副本。一个主题(一类消息)有多个分区(消息被分段)，一个分区(每段消息)有多个副本(每段消息的副本数)。消息一旦发给kafka，就会分配一个偏移量，在多个副本中的偏移量是一样的。这样的话，消费者通过偏移量消费时对于多个副本就没有差异性。

Kafka集群由一个或多个Kafka实例构成，每一个Kafka实例称为代理（Broker），通常也称代理为Kafka服务器（KafkaServer）。在生产环境中Kafka集群一般包括一台或多台服务器，我们可以在一台服务器上配置一个或多个代理。每一个代理都有唯一的标识id，这个id是一个非负整数。在一个Kafka集群中，每增加一个代理就需要为这个代理配置一个与该集群中其他代理不同的id, id值可以选择任意非负整数即可，只要保证它在整个Kafka集群中唯一，这个id就是代理的名字，也就是在启动代理时配置的brokerid对应的值。

生产者（Producer）负责将消息发送给代理，也就是向Kafka代理发送消息的客户端。

消费者（Comsumer）以拉取（pull）方式拉取数据，它是消费的客户端。在Kafka中每一个消费者都属于一个特定消费组（ConsumerGroup），可以为每个消费者指定一个消费组，以groupId代表消费组名称，通过groupid配置设置。如果不指定消费组，则该消费者属于默认消费组test-consumer-group。

每个消费者有一个全局唯一的id ，通过配置项clientid指定，如果客户端没有指定消费者的id， Kafka会自动为该消费者生成一个全局唯一的id，格式为${groupId}-${hostName}-${timestamp}-${UUID前8位字符}。同一个主题的一条消息只能被同一个消费组下某一个消费者消费，但不同消费组的消费者可同时消费该消息。消费组是Kafka用来实现对一个主题消息进行广播和单播的手段，实现消息广播只需指定各消费者均属于不同的消费组，消息单播则只需让各消费者属于同一个消费组。
推论： kafka消息是按照消息类型(主题)，在一个消费者组中只能消费一次。也就是一个消费者组只消费一类型的消息。如果某个服务要消费一类消息，必须将自己置为不同的消费者组。

Kafka利用ZooKeeper保存相应元数据信息， Kafka元数据信息包括如代理节点信息、Kafka集群信息、旧版消费者信息及其消费偏移量信息、主题信息、分区状态信息、分区副本分配方案信息、动态配置信息等。 Kafka在启动或运行过程当中会在ZooKeeper上创建相应节点来保存元数据信息， Kafka通过监听机制在这些节点注册相应监听器来监听节点元数据的变化，从而由ZooKeeper负责管理维护Kafka集群，同时通过ZooKeeper我们能够很方便地对Kafka集群进行水平扩展及数据迁移。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/13388455.html

Apache Kudu 入门（伪分布式）

发表评论

评论列表（0条）