您现在的位置是：首页 > 大数据

当前栏目

【项目】如何通过总的用户数据计算单台kafka所需磁盘容量？

Kafka 项目计算数据如何用户通过磁盘

2023-09-14 09:14:14 时间

一、背景

项目中需要用到Kafka来承接车机上来的接口数据，然后再转存到数据库，客户反馈，需要对生产环境中的Kafka的存储容量进行评估。以下是具体的算法内容

二、Kafka的Topic信息与Kafka架构信息

（1）Kafka的Topic信息

在这里插入图片描述

（2）Kafka的架构信息

Kafka架构为集群架构，购买的是阿里云的云Kafka
三台kafka的连接地址：
K1.alikafka.aliyuncs.com:9092,
K2.alikafka.aliyuncs.com:9092,
K3alikafka.aliyuncs.com:9092

Kafka的副本数量，默认保存三份（生产需要三个副本，沙箱1个即可）
Kafka保存的天数为默认的7天

三、开始计算

Step1、计算用户活跃数

假设总的用户数据是60W，
根据经验，用户活跃数为用户总数的15%，即 9W

Step2、评估峰值的业务数据

只要计算出最高业务数据的总频率，那么其他业务数据就不用算
那如何评估出峰值的业务数据呢？有两个方案

方案1：结合日常生活的经验得出

因为这个业务与日常生活场景还是相差比较远的，因此采用方案2

方案2：结合目前有的测试数据进行估值计算

算法如下
查看最高事件的频率是哪个？

select count(*) from 表1
select count(*) from 表2
...
select count(*) from 表N

得出表N是具有最多的数据量的表，那么它就是峰值的业务数据。

Step3、计算产生这么多业务数据需要多少天

select *  from 表N order by create_time asc

计算开始时间：2022-10-28
计算结束时间：2023-1-4
总共历经 2 个月 = 31*2 = 62天

Step4、计算一台车机数据总数

select distinct(vin) from 表N

计算出来，这么多数据是由43台车机产生的
43 台车机数据总数：1258246 条
1 台车机数据总数：29261 条

实际车机阈值是多少？因为存在业务数据的不确定性，因此无法正确评估

Step5、查看一条数据的大小

一条数据的大小： 800byte （取JSON数据，拿txt查看的大小）

Step6、计算每天一台车机产生的数据大小

62天1 台车机产生的数据大小：29261 条数据 * 800byte = 23409228 byte
每天1 台车机产生的数据大小：23409228 / 62天 = 377568 byte
每天1 台车机产生的数据大小（byte换算成K）：377568 byte /1024 = 368K

Step7、计算活跃车机的数据量大小

一台车机总的数据量大小：370K（四舍五入）
9W活跃车机的数据量大小：370K * 9W = 33300000K = 32519M

Step8、结合Kafka架构计算

32519M * 3个副本数量 = 97558 M
97558 M * 保存多少天 (默认的7天) = 682910 M

Step9、计算一台Kafka机器所需的磁盘容量

预估需要的磁盘容量：666.904296875 （四舍五入700G）
硬盘的容量提集群(三个机器)一共700G

一台机器250G左右就够了

猜你喜欢

MySQL事务安全性及事务级别深度探究（mysql事务级别）
如何在Linux Vi中显示行数？（linuxvi显示行数）
拥有者红色狮子Redis集群的受益者（为什么redis集群）
Downie 4 for Mac中文版(在线视频下载软件)兼容12系统
IIS连接数、并发连接数、最大并发工作线程数、应用程序池的队列长度、应用程序池的最大工作进程数详解
如何使用protobuf-inspector对Protocol Buffers进行逆向工程分析
JBPM工作流的性能问题「建议收藏」
Linux查看Tomcat进程：掌握必备指令（linux查看tomcat进程）
Oracle中如何查询数据库中的注释（oracle 中查询注释）
【2】超级详细Python-matplotlib画图，手把手教你画图！（线条颜色、大小、线形、标签）
CVS
hyperworks2021位安装教程：
ubuntu下搭建Go语言（golang）环境
约瑟夫环问题详解

相关主题

kafka集群安装
Kafka 消息队列
kafka与rocketmq
Kafka 12问
Spring Boot Kafka
Kafka 消息不丢失
kafka-manager
kafka幂等
kafka的使用
docker 安装kafka
2. kafka
kafka(一)

zl程序教程

当前栏目

【项目】如何通过总的用户数据计算单台kafka所需磁盘容量？

一、背景

二、Kafka的Topic信息与Kafka架构信息

（1）Kafka的Topic信息

（2）Kafka的架构信息

三、开始计算

Step1、计算用户活跃数

Step2、评估峰值的业务数据

方案1：结合日常生活的经验得出

方案2：结合目前有的测试数据进行估值计算

Step3、计算产生这么多业务数据需要多少天

Step4、计算一台车机数据总数

Step5、查看一条数据的大小

Step6、计算每天一台车机产生的数据大小

Step7、计算活跃车机的数据量大小

Step8、结合Kafka架构计算

Step9、计算一台Kafka机器所需的磁盘容量

相关文章

当前栏目

【项目】如何通过总的用户数据计算单台kafka所需磁盘容量？

一、背景

二、Kafka的Topic信息与Kafka架构信息

（1）Kafka的Topic信息

（2）Kafka的架构信息

三、开始计算

Step1、计算用户活跃数

Step2、评估峰值的业务数据

方案1： 结合日常生活的经验得出

方案2：结合目前有的测试数据进行估值计算

Step3、计算产生这么多业务数据需要多少天

Step4、计算一台车机数据总数

Step5、查看一条数据的大小

Step6、计算每天一台车机产生的数据大小

Step7、计算活跃车机的数据量大小

Step8、结合Kafka架构计算

Step9、计算一台Kafka机器所需的磁盘容量

相关文章

方案1：结合日常生活的经验得出