您现在的位置是：首页 > 数据库

当前栏目

Kafka多分区下二分法查找指定时间戳的offset

Kafka

2023-03-15 23:28:12 时间

python消费Kafka的时候，不能指定时间戳开始消费，只能指定offset，因此需要先找到指定时间戳所在的offset再消费。百度找到的文章都是单分区下的查找方法，多分区时需要做一定的修改，记录下代码：

import time

from kafka import KafkaConsumer, TopicPartition


def from_timestamp(timestamp):
    """
    将long型的时间戳转换为格式话的限制方式
    :param timestamp:
    :return:
    """
    timeArray = time.localtime(timestamp)
    otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
    return otherStyleTime


# 目标时间戳
timestamp = 1635696000000

# 指定消费者
consumer = KafkaConsumer(bootstrap_servers=['xxx.xxx.xxx.xxx:9092'], 
                         auto_offset_reset='oldest',
                         max_poll_records=10000,
                         max_poll_interval_ms=500
                         )
# 指定partition信息
tp0 = TopicPartition('tpc_bd_hu_track', 0)
tp1 = TopicPartition('tpc_bd_hu_track', 1)
tp2 = TopicPartition('tpc_bd_hu_track', 2)

tp_tuple = (tp0, tp1, tp2)

consumer.assign(tp_tuple)

# 二分法找到指定时间戳啊的offset
tp0_start_offset = consumer.beginning_offsets(tp_tuple).get(tp0)
tp1_start_offset = consumer.beginning_offsets(tp_tuple).get(tp1)
tp2_start_offset = consumer.beginning_offsets(tp_tuple).get(tp2)

tp0_end_offset = consumer.end_offsets(tp_tuple).get(tp0)
tp1_end_offset = consumer.end_offsets(tp_tuple).get(tp1)
tp2_end_offset = consumer.end_offsets(tp_tuple).get(tp2)

tp0_nos = int((tp0_start_offset + tp0_end_offset) / 2)
tp1_nos = int((tp1_start_offset + tp1_end_offset) / 2)
tp2_nos = int((tp2_start_offset + tp2_end_offset) / 2)

# 目标时间戳
base_timestamp = 1635609600000

print("Partition-0: ", tp0_start_offset, tp0_nos, tp0_end_offset)
while True:
    consumer.seek(tp0, tp0_nos)
    consumer.seek(tp1, tp1_nos)
    consumer.seek(tp2, tp2_nos)
    res = consumer.poll(timeout_ms=10000, max_records=1)
    if tp0 in res:
        res_record = res[tp0][0]
        the_time = res_record.timestamp
        if the_time < base_timestamp:
            tp0_start_offset, tp0_nos = tp0_nos, int((tp0_nos + tp0_end_offset) / 2)
            print("Partition-0: ", tp0_start_offset, tp0_nos, tp0_end_offset,
                  from_timestamp(res_record.timestamp / 1000),
                  'offset:',
                  res_record.offset)
        elif the_time > base_timestamp:
            tp0_nos, tp0_end_offset = int((tp0_nos + tp0_start_offset) / 2), tp0_nos
            print("Partition-0: ", tp0_start_offset, tp0_nos, tp0_end_offset,
                  from_timestamp(res_record.timestamp / 1000),
                  'offset:',
                  res_record.offset)
        else:
            continue
    elif tp1 in res:
        res_record = res[tp1][0]
        the_time = res_record.timestamp
        if the_time < base_timestamp:
            tp1_start_offset, tp1_nos = tp1_nos, int((tp1_nos + tp1_end_offset) / 2)
            print("Partition-1: ", tp1_start_offset, tp1_nos, tp1_end_offset,
                  from_timestamp(res_record.timestamp / 1000),
                  'offset:',
                  res_record.offset)
        elif the_time > base_timestamp:
            tp1_nos, tp1_end_offset = int((tp1_nos + tp1_start_offset) / 2), tp1_nos
            print("Partition-1: ", tp1_start_offset, tp1_nos, tp1_end_offset,
                  from_timestamp(res_record.timestamp / 1000),
                  'offset:',
                  res_record.offset)
        else:
            continue
    elif tp2 in res:
        res_record = res[tp2][0]
        the_time = res_record.timestamp
        if the_time < base_timestamp:
            tp2_start_offset, tp2_nos = tp2_nos, int((tp2_nos + tp2_end_offset) / 2)
            print("Partition-2: ", tp2_start_offset, tp2_nos, tp2_end_offset,
                  from_timestamp(res_record.timestamp / 1000),
                  'offset:', res_record.offset)
        elif the_time > base_timestamp:
            tp2_nos, tp2_end_offset = int((tp2_nos + tp2_start_offset) / 2), tp2_nos
            print("Partition-2: ", tp2_start_offset, tp2_nos, tp2_end_offset,
                  from_timestamp(res_record.timestamp / 1000),
                  'offset:', res_record.offset)
        else
            continue
    if (tp0_nos == tp0_end_offset or tp0_start_offset == tp0_nos) 
            and (tp1_nos == tp1_end_offset or tp1_start_offset == tp1_nos) 
            and (tp2_nos == tp2_end_offset or tp2_start_offset == tp2_nos):
        break

print('Partition-0: ', tp0_start_offset, tp0_nos, tp0_end_offset)
print('Partition-1: ', tp1_start_offset, tp1_nos, tp1_end_offset)
print('Partition-2: ', tp2_start_offset, tp2_nos, tp2_end_offset)

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

Kafka多分区下二分法查找指定时间戳的offset

相关文章