kafka学习记录—生产者_python

kafka学习记录—生产者生产经验—生产者如何提高吞吐量

生产流程：生产者将数据发送到缓冲区，内有producer，拦截器，序列化器，分区器（将在缓冲区分区），通过send线程读取数据发送到broker（默认每个分区缓存几个请求），kafka应答acks给Selector。

原始：一次拉取一个货物，效率低。
改进：一次拉取16k货物，效率变高；在缓冲区等待时间变长，第一批货物到broker时间变久。

batch.size：批次大小，默认16k

linger.ms：等待时间，修改为5-100ms

生产经验—数据的可靠性

发送到kafka集群后，kafka集群会应答acks：

0：生产者发送过来的数据，不需要等数据落实后应答=====>可靠性分析：丢数

1：生产者发送过来的数据，leader接收后应答==========>可靠性分析：丢数

-1：生产者发送过来的数据，leader+队列所有的节点收齐数据后应答。-1和all等价。===>ISR应答的最小副本数量设置为一（分数副本为1）

其中一个follower挂了怎么办：leader维护了一个动态的ISR，意为和leader保持同步的集合，若follower长期未响应，则被退出ISR。

数据完全可靠性：ACK设置-1 + 分区副本大于等于2 + ISR应答的最小副本大于等于2

数据重复性：概率低

生产经验—数据去重数据传递语义

幂等性：producer不论向broker发送多少数据，broker端都只会持久化一条，保证n了不重复：只能保证在单分区单会话内不重复。

精确一次=幂等性+至少一次（ack=-1，分区副本大于等于2，ISR最小副本数量大于等于2）

生产者事务：开启事务必须开启幂等性。在使用事务功能前，必须自定义一个唯一的事务id，客户端挂掉，重启后也能继续处理未完成的事务。

调用事务API时报错，没有指定唯一id

生产经验—数据有序

单分区内：有序

多分区：分区与分区间无序

生产经验—数据乱序

未开启幂等性，max.in.flightrequests.per.connection需要设置为1。
开启幂等性，max.in.flightrequests.per.connection需要设置小于等于5。缓存的请求个数小于等于5 时，服务端重新排序。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/797269.html

kafka学习记录—生产者

发表评论

评论列表（0条）