您现在的位置是：首页 > 大数据

当前栏目

kafka学习笔记03-消息生产者producer

Kafka 消息笔记学习 03 生产者 Producer

2023-09-27 14:24:38 时间

发送消息整体流程示意图

消息发送的流程示意图：

(From：High-level overview of Kafka producer components – Kafka the Definitive Guide Book , 中文书名：kafka权威指南)

一条消息写入 kafka，构造这条消息结构名称叫 ProduceRecord，ProduceRecord 的结构如上图。

大致流程说明：

先找到 kafka 集群的 bootstrap server，一般推荐一个kafka集群最少设置 2 个bootstrap server
找到一些发送数据需要的元信息，如 topics，partitions，replica-factor 等等信息
然后找到 broker 中的 leader topic ，把消息写入到 topic 中的 partiton 里

当然，这当中还有消息的序列化（serializer），分区器（partitioner）对数据的分区分配等步骤。

数据分区分配机制-数据负载均衡

生产者的数据主要发送到 topic 的分区（partition）里，一个 topic 可以有多个分区，同一个topic下的不同分区存储的消息不同，那怎么确定消息发送到哪一个分区partition？

这就需要一种算法来确定数据发送到哪个分区（partition）。

也就是将数据进行均匀分布，分配算法分配数据时不要导致某一个partition数据分配太多，而某一个分区数据又太少。

怎么做到生产数据的负载均衡，kafka 里的 partitioner （分区器）来负责客户端生产层面的负载均衡。

如果提供 key 值
partitioner 会根据 key 的哈希值（采用Murmur2Hash算法）对 partition 数量取模，根据该值决定把消息发送到哪个 partition 上，(hash(key) mod numpartitons)。
如果没有提供 key 值
key 为空（null，无值）时，kafka 2.4 之前有一种策略，轮询算法， 2. 4 之后，又提供了因为一种算法 黏性分区策略。
key 为 null 时，第一次调用时会随机生成一个整数，后面每次在这个整数上自增，然后这个值对 partition 数量取模，这个就是轮询算法 - roundrobin。
kafka 2.4 之前默认的策略就是这个轮询主题的所有分区，将消息以轮询的方式发送到每一个分区上。
kafka 2.4 之后，社区又引进了 Sticky Partitioning Strategy(黏性分区策略)，该策略能显著降低指定分区过程中的延时。具体信息看这里 KIP-480: Sticky Partitioner
如果提供了 partition：
如果你指定了 partition分区，那么就用指定的这个分区，不用 hash(key) 的分区算法。

每个消息在被添加到分区partition时，会分配一个 offset ，叫偏移量，它是消息在分区中的唯一编号，也可以理解为数据库中某一张表的唯一id，kafka 通过 offset 保证了消息在某一分区的顺序，offset 不跨区，它只在一个分区内消息是有序。

比如有一个 topic 命名为：topic:student，配置了 3 个分区，分区为：p0，p1，p2，如下图：

old ：表示存储的旧数据，也就是 offset 值小的数据。
new：表示存储的新数据，新写入的数据，offset 值大的数据。
consumer：消费者，可以消费 partition 分区的数据。这个可以看作一个消费组只有一个consumer的情况。
consumer group：消费组，它可以保证每个分区只被组内的一个consumer(消费者)消费。

生产者的一些参数配置

生产端参数配置：http://kafka.apache.org/documentation/#producerconfigs

key.serializer：
key 的序列化

value.serializer ：
值的序列化

acks：
acks 指的是有多少个副本接收到数据后发送 ack 成功，生产者才会认为数据接收成功。

acks = 0，只管发不等服务端确认消息，不负责对发送的消息进行确认是否接收成功。也就是说发送过程中出了问题，导致服务器没有收到消息，生产者无从得知，消息也就丢失了。并且 retries 配置也不会起作用，每次 offset 返回的值都是 -1。
acks = 1，只要集群的 Leader 接收消息并返回一条 ack 确认消息，就表明成功发送
acks = all，这个不光要集群的 Leader 接收消息后发送 ack 确认消息，followers 也要发送确认消息，所有的 ack 发送成功，才表明数据发送成功。所以它的延迟比其他2项高。
它还可以设置为 -1，即是 acks = -1。

buffer.memory:
设置生产者的内存缓冲区，缓冲要发送给服务器的消息。

compression.type：
对消息启用的压缩算法。默认情况下消息不会被压缩。
该参数可以设置为 snappy、gzip 和 lz4

retries：
发送消息遇到错误，重试的次数。

batch.size：
该参数指定了一个批次可以使用的内存大小，按照字节数计算
当有多个消息发到同一个分区时，生产者会把它放到同一个批次里。

bootstrap.servers：
连接到 kafka cluster 列表，也就是 broker 列表。默认为空。
设置：host1:port1,host2:port2,...

linger.ms：
在批量发送前的等待时间

client.id：
可以是任意字符串，服务器用来识别消息来源。可以设置为空，client.id=""

更多配置参数参考这里：http://kafka.apache.org/documentation/#producerconfigs

猜你喜欢

shell脚本在windows下和linux下换行符不同的问题，shell脚本每行后面多了一个^M的原因和解决办法
使用POI实现报表打印功能
C语言：读入12个数存放3X4的二维数组，输出转置矩阵
20款时尚的 WordPress 博客主题【免费下载】
史上最全的maven pom.xml文件教程详解
精品基于SSM的民宿预订管理系统
Writing a simple Lexer in PHP/C++/Java
自动化测试和数据驱动之间的关系，10分钟带你弄清楚
【算法】算法的艺术（三）
云图说｜初识云数据库GaussDB（for Cassandra）
一种低成本的4G无线工业边缘计算路由器
[cocos2dx]自定义loading动画
基于Kurento的WebRTC移动视频群聊技术方案
【并发基础】一篇文章带你快速掌握ThreadLocal及其原理
一天一个 Linux 命令（9）：rmdir命令
emWin教程目录汇总
Java虚拟机详解（二）------运行时内存结构

相关主题

Kafka 消息队列
Kafka消息队列
kafka文档
消息队列和Kafka
笔记笔记笔记
Kafka总结

zl程序教程

当前栏目

kafka学习笔记03-消息生产者producer

发送消息整体流程示意图

数据分区分配机制-数据负载均衡

生产者的一些参数配置

相关文章