您现在的位置是：首页 > 数据库

当前栏目

漫画大数据：如何解决 NameNode 内存持续增长的问题（二）

数据

2023-03-07 09:02:23 时间

NameNode 的内存占用与 HDFS 中的目录数量、文件数量以及块数量有关，随着目录和文件数量的增多，可以通过调大 NameNode 堆内存的方式来解决内存不足的问题，但毕竟物理内存是有上限的，不可能无限增大，还有其他什么好办法呢？

假设 Hadoop 集群资源足够支撑 50 个任务并发，每次处理数据前，需要花 1 分钟时间来创建任务，每个任务需要 5 分钟时间来完成 128MB 的数据分析工作。

当需要分析的数据量为 1.28GB 时，如果 Block 大小设置为 128MB，那么就会存在 10 个 Block，可以同时起 10 个任务并发运行，总的数据分析时长就是 5 分钟，再加上 1 分钟的创建任务时间，总共花费 5+1=6 分钟。

如果 Block 大小设置为 256MB，那么就会存在 5 个 Block，只能同时起 5 个任务并发运行（Block 一般作为文件读写的最小单元），总的数据分析时长就是 10 分钟，再加上 1 分钟的创建任务时间，总共花费 10+1=11 分钟。

此时，Block 大小设置为 128MB 时，效率更高。

当需要分析的数据量为 128GB 时，如果 Block 大小设置为 128MB，那么就会存在 1000 个 Block，最多同时起 50 个任务并发运行，需要跑 20 轮并发才行，总的花费时长就是 20*(5+1)=120 分钟。

如果 Block 大小设置为 256MB，那么就会存在 500 个 Block，最多也是同时起 50 个任务并发运行，但只需要跑 10 轮并发，总的花费时长为 10*(10+1)=110 分钟。

此时，Block 大小设置为 256MB 时，效率更高。

猜你喜欢

Selenium Web自动化测试——基于unittest框架的PO设计模式
ECS+docker配置远程二进制调试环境
使用Postman工具做接口测试(五)——生成随机参数
GRPC: 基于云原生环境，区分配置文件
LR中解决接口请求中包含中文字符，服务器不识别的问题
阿里云的使用体验
Git命令——学习笔记1
ECS云服务器的使用体验
今年半导体行业第三次大并购！AMD想用300亿美元拿下赛灵思，最早下周达成交易
【愚公系列】2023年01月网安实验-.先欠着（待定）
借助 Flink 与 Pulsar，BIGO 打造实时消息处理系统
接口测试|HttpRunner获取响应数据&extract提取值到变量
Git命令——学习笔记2
spring cloud 和阿里微服务spring cloud Alibaba
阿里云学生云服务器使用体验
ZYNQ（FPGA）与DSP之间SRIO通信操作步骤
浅谈正则表达式的使用
资深程序员在编程中有哪些特殊的习惯或方法？
使用服务器ECS的感受
Python测试之道——笔记1

zl程序教程

当前栏目

漫画大数据：如何解决 NameNode 内存持续增长的问题（二）

相关文章