大数据理论篇 | 分布式消息队列Kafka

一、 Kafka简介

Broker（代理）
- Kafka的一个实例或节点，一个或多个Broker组成一个Kafka集群
Topic（主题）
- Topic是Kafka中同一类数据的集合，相当于数据库中的表
- Producer将同一类数据写入同一个Topic，Consumer从同一个Topic中读取同类数据
- Topic是逻辑概念，用户只需指定Topic就可以生产或消费数据，不必关心数据存于何处
Partition（分区）
- 分区是一个有序的、不可修改的消息队列，分区内消息有序存储
- 一个Topic可分为多个分区，相当于把一个数据集分成多份，分别存储不同的分区中
- Parition是物理概念，每个分区对应一个文件夹，其中存储分区的数据和索引文件
Replication（副本）
- 一个分区可以设置多个副本，副本存储在不同的Broker中
Producer（消息生产者）
- 向Broker发布消息的客户端
Consumer（消息消费者）
- 从Broker消费消息的客户端
Consumer Group（CG，消费者组）
- 每个Consumer都隶属于一个特定的CG
- 一条消息可以发送给多个不同的CG，但一个CG中只能有一个Consumer读取该消息
Zookeeper
- Kafka将元数据保存在Zookeeper中
- 负责Kafka集群管理，包括配置管理、动态扩展、Broker负载均衡、Leader选举，以及 Consumer Group变化时的Rebalance等

每个Partition副本都是一个目录，目录中包含若干Segment文件
Segment（段文件）
1. Segment文件是Kafka的最小数据存储单元，一个Partition包含多个Segment文件
2. Segment文件由以Message在Partition中的起始偏移量命名的数据文件（*.log）和索引文件（*.index、*.timeindex）组成
Offset（偏移量）
1. Offset是用于定位分区中消息的顺序编号
2. Offset用于在分区中唯一标识消息
3. 使用Zookeeper维护Offset
Kafka索引
1. 为了提高消息写入和查询速度，为每个Partition创建索引，索引文件存储在Partition文件夹下
2. 偏移量索引
  - 文件以offset偏移量为名称，以index为后缀
  - 索引内容格式：offset,position
  - 采用稀疏存储方式
3. 时间戳索引
  - 文件以timeindex为后缀
  - 索引内容格式：timestamp,offset
  - 采用稀疏存储方式

a. 多分区多副本

b. 双层选举

Kafka Controller Leader选举
- 每个Broker启动时都会创建一个Kafka Controller进程
- 通过Zookeeper，从Kafka集群中选举出一个Broker作为Kafka Controller Leader
- Kafka Controller Leader负责管理Kafka集群的分区和副本状态，避免分区副本直接在Zookeeper上注册Watcher和竞争创建临时Znode，导致Zookeeper集群负载过重
Kafka Partition Leader选举
- Kafka Controller Leader负责Partition Leader的选举
- ISR列表（In Sync Replica）
  - ISR是Zookeeper中的候选分区副本同步列表，负责保存候选分区副本（Partition Follower）的状态信息
  - Partition Leader负责跟踪和维护ISR
  - Partition Follower定期从Leader同步数据，若Follower心跳超时或消息落后太多，将被移除出ISR
- Partition Leader挂掉后，Kafka Controller Leader从ISR中选择一个Follower作为新的Leader

参考资料：
[1]Kafka 工作机制