Java 客户端消费者的实现细节

来自姬鸿昌的知识库
Jihongchang讨论 | 贡献2022年8月27日 (六) 09:35的版本 →‎5.指定分区和偏移量、时间消费
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳到导航 跳到搜索

https://www.bilibili.com/video/BV1Xy4y1G7zA?p=18

1.消费者的基本实现

package org.example.kafka;

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.time.Duration;
import java.util.Arrays;
import java.util.Properties;

public class MySimpleConsumer {

    private final static String TOPIC_NAME = "my-replicated-topic";

    private final static String CONSUMER_GROUP_NAME = "testGroup";

    public static void main(String[] args) {

        Properties props = new Properties();

        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.137.200:9092,192.168.137.200:9093,192.168.137" +
                ".200:9094");

        // 消费分组名
        props.put(ConsumerConfig.GROUP_ID_CONFIG, CONSUMER_GROUP_NAME);
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());

        //创建一个消费者的客户端
        KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);

        //消费者订阅主题列表
        consumer.subscribe(Arrays.asList(TOPIC_NAME));

        while (true) {

            /*
             * poll() API 是拉取消息的长轮询
             */
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(1000));

            for (ConsumerRecord<String, String> record:records) {
                System.out.printf("收到消息:partition = %d, offset = %d, key = %s, value = %s%n", record.partition(),
                        record.offset(), record.key(), record.value());
            }

        }// end while



    }// end main

}//end class

2.关于消费者自动提交和手动提交 offset

https://www.bilibili.com/video/BV1Xy4y1G7zA?p=19

1)提交的内容

消费者无论是自动提交还是手动提交,都需要把所属的消费组+消费的某个主题+消费的某个分区及消费的偏移量,这样的信息提交到集群的 _consumer_offsets 主题里面。

2)自动提交

消费者 poll 消息下来以后就会自动提交 offset

//是否自动提交 offset,默认就是 true
props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "true");

//自动提交 offset 的时间间隔
props.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, "1000");

注意:自动提交会丢消息。因为消费者在消费前提交 offset,有可能提交完成后还没消费时消费者挂了。

3)手动提交

需要把自动提交的配置改成 false

props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "false");

手动提交又分成了两种:

  • 手动同步提交

在消费完消息后调用同步提交的方法,当集群返回 ack 前一直阻塞,返回 ack 后表示提交成功,执行之后的逻辑

        while (true) {
            /*
            poll() API 是拉取消息的长轮询
             */
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(1000));

            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("收到消息:partition = %d, offset = %d, key = %s, value = %s%n", record.partition(),
                        record.offset(), record.key(), record.value());
            }


            if (records.count() > 0) {

                // 手动同步提交 offset,当前线程会阻塞直到 offset 提交成功
                // 一般使用同步提交,因为提交之后一般也没有什么逻辑代码了
                consumer.commitSync(); //==========阻塞==== 提交成功

            }

        }// end while
  • 手动异步提交

在消息消费完后提交,不需要等到集群 ack,直接执行之后的逻辑,可以设置一个回调方法,供集群调用

        while (true) {
            /*
            poll() API 是拉取消息的长轮询
             */
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(1000));

            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("收到消息:partition = %d, offset = %d, key = %s, value = %s%n", record.partition(),
                        record.offset(), record.key(), record.value());
            }

            if (records.count() > 0) {

                // 手动异步提交 offset,当前线程提交 offset 不会阻塞,可以继续处理后面的程序逻辑
                consumer.commitAsync(new OffsetCommitCallback() {
                    @Override
                    public void onComplete(Map<TopicPartition, OffsetAndMetadata> map, Exception e) {
                        if (e != null) {
                            System.err.println("Commit failed for " + map);
                            System.err.println("Commit failed exception:" + e.getStackTrace());
                        }
                    }
                });



            }

        }// end while

3.长轮询 poll 消息

https://www.bilibili.com/video/BV1Xy4y1G7zA?p=20

  • 默认情况下 ,消费者一次会 poll 500条消息。
    //一次 poll 最大拉取消息的条数,可以根据消费速度的快慢来设置
    props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 500);
    
  • 代码中设置了长轮询的时间是 1000 毫秒
    while (true) {
        /*
         poll() API 是拉取消息的长轮询
         */
        ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(1000));
    
        for (ConsumerRecord<String, String> record : records) {
            System.out.printf("收到消息:partition = %d, offset = %d, key = %s, value = %s%n", record.partition(),
                            record.offset(), record.key(), record.value());
        }
    }
    
    意味着:
    • 如果一次 poll 到500条,就直接执行 for 循环
    • 如果这一次没有 poll 到500条。且时间在1秒内,那么长轮询继续 poll,要么到500条,要么到1s
    • 如果多次 poll 都没达到500条,且1秒时间到了,那么直接执行 for 循环
    • 如果两次 poll 的间隔超过30s,集群会认为该消费者的消费能力过弱,该消费者被踢出消费组,出发 rebalance 机制,rebalance 机制会造成性能开销。可以通过设置这个参数,让一次 poll 的消息条数少一
      //一次 poll 最大拉取消息的条数,可以根据消费速度的快慢来设置
      props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 500);
      
      //如果两次 poll 的时间超出了30s的时间间隔,Kafka 会认为其消费能力过弱,将其踢出消费组。将分区分配给其他消费者。
      props.put(ConsumerConfig.MAX_POLL_INTERVAL_MS_CONFIG, 30 * 1000);
      

4.消费者的健康状态检查

https://www.bilibili.com/video/BV1Xy4y1G7zA?p=21

消费者每隔1s向 kafka 集群发送心跳,如果集群发现有超过10s没有续约的消费者,将被踢出消费组,出发该消费组的 rebalance 机制,将该分区交给消费组里的其他消费者进行消费。

//consumer 给 broker 发送心跳的间隔时间
props.put(ConsumerConfig.HEARTBEAT_INTERVAL_MS_CONFIG, 1000);

// kafka 如果超过10秒没有收到消费者的心跳,则会把消费者踢出消费组,记性 rebalance,把分区分配给其他消费者
props.put(ConsumerConfig.SESSION_TIMEOUT_MS_CONFIG, 10 * 1000);

5.指定分区和偏移量、时间消费

  • 指定分区消费
    //消费指定分区
    consumer.assign(Arrays.asList(new TopicPartition(TOPIC_NAME, 0)));
    
  • 从头消费
    consumer.assign(Arrays.asList(new TopicPartition(TOPIC_NAME, 0)));
    consumer.seekToBeginning(Arrays.asList(new TopicPartition(TOPIC_NAME, 0)));
    
  • 指定 offset 消费
    consumer.assign(Arrays.asList(new TopicPartition(TOPIC_NAME, 0)));
    consumer.seek(new TopicPartition(TOPIC_NAME, 0), 10);
    
  • 指定时间消费

根据时间,去所有的 partition 中确定该时间对应的 offset,然后去所有的 partition 中找到该 offset 之后的消息开始消费。

List<PartitionInfo> topicPartitions = consumer.partitionsFor(TOPIC_NAME);
//从1小时前开始消费
long fetchDataTime = new Date().getTime() - 1000 * 60 * 60;
Map<TopicPartition, Long> map = new HashMap<>();
for (PartitionInfo par : topicPartitions) {
    map.put(new TopicPartition(TOPIC_NAME, par.partition()), fetchDataTime);
}
Map<TopicPartition, OffsetAndTimestamp> parMap = consumer.offsetsForTimes(map);
for (Map.Entry<TopicPartition, OffsetAndTimestamp> entry : parMap.entrySet()) {
    TopicPartition key = entry.getKey();
    OffsetAndTimestamp value = entry.getValue();
    if (key == null || value == null) continue;
    Long offset = value.offset();
    System.out.println("partition-" + key.partition() + "|offset-" + offset);
    System.out.println();
    //根据消费里的 timestamp 确定 offset
    if (value != null) {
        consumer.assign(Arrays.asList(key));
        consumer.seek(key, offset);
    }
}

6.新消费组的消费 offset 规则

https://www.bilibili.com/video/BV1Xy4y1G7zA?p=22

新消费组中的消费者在启动以后,默认会从当前分区的最后一条消息的 offset + 1 开始消费(消费新消息)。可以通过以下的设置,让新的消费者第一次从头开始消费。之后开始消费新消息(最后消费的位置的偏移量+1)

  • latest:默认的,消费新消息
  • earliest:第一次从头开始消费。之后开始消费新消息(最后消费的位置的偏移量+1)
    props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");