您现在的位置是：首页 > 大数据

当前栏目

《Hadoop技术详解》一2.1　目标和动机

hadoop 技术详解目标 2.1

2023-09-11 14:17:46 时间

本节书摘来异步社区《Hadoop技术详解》一书中的第2章，第2.1节，作者：【美】Eric Sammer 译者：刘敏 , 麦耀锋 , 李冀蕾 , 等，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.1 目标和动机

Apache Hadoop的重要组成部分是Hadoop分布式文件系统（HDFS，Hadoop Distributed Filesystem）。HDFS的设计初衷是为了支持高吞吐和超大文件的流式读写操作。传统的大型存储区域网络（Storage Area Network, SAN）和网络附加存储（Network Attached Storage, NAS）给TB级的块设备或文件系统提供了一种集中式的低延时数据访问解决方案。因为SAN和NAS支持全功能POSIX语法，具有很好的存储伸缩性和低延时访问等优点，所以可以完美地满足关系数据库、内容交付系统及类似数据的块存储要求。然而，试想一下这样的场景：成千上万台机器同时启动，并从集中式存储系统中同时读取成百TB的数据。传统存储技术不可能达到这样的规模！

为了解决这个问题，我们可以用一些独立的机器搭建一个高性价比系统。这个系统中的每台机器都拥有自己的I/O子系统、磁盘、RAM、网络接口、CPU，且支持部分POSIX功能（或按需求裁剪）。以下就是HDFS的一些特定目标。

可以存储几百万个大型文件，每个文件大小可以超过几十GB；文件系统的容量可达数十PB。利用横向扩展模式（scale-out），使用基于磁盘簇（JBOD）而不是磁盘阵列(RAID)的普通商用服务器实现大规模数据存取，同时，在应用层完成数据复制以实现存储的可用性和高吞吐率。优化是针对大型文件的流式读写操作，而不是为了满足小文件的低延时访问。批量处理的性能比互动响应的实时性更加重要。能容忍机器某些部件故障和磁盘失效。支持MapReduce处理所需要的功能与规模要求，详细内容请阅读第3章。

尽管HDFS可以不依赖MapReduce而独立应用于大型数据集的存储，但如果将它们结合在一起，系统就会如虎添翼。例如，利用HDFS将输入数据分割成数据块分别存储在不同机器上的特点，MapReduce可以将计算任务分配给数据块所在的机器，从而实现数据读取的本地化，提高系统的效率。

【Hadoop技术篇】hive的优化，经典面试 1）开启配置：set hive.optimize.bucketmapjoin = true; 2）一个表的bucket数是另一个表bucket数的==整数倍== 3） bucket列 == join列 4）满足map join条件
异步社区异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区，也是国内领先的IT专业图书社区，致力于优质学习内容的出版和分享，实现了纸书电子书的同步上架，于2015年8月上线运营。公众号【异步图书】，每日赠送异步新书。

猜你喜欢

hive表支持中文设置
Kotlin 扩展函数与属性实例代码
是否需要手动释放一次性定时器？
一文总结那些年我们追过的计算机发展史
NLP之Transformer：Transformer架构详解之Encoder(位置编码/多头注意力/Position-Wise前馈网络/层归一化)、Decoder(Masked多头注意力)之详细攻略
Spark新愿景：让深度学习变得更加易于使用——见https://github.com/yahoo/TensorFlowOnSpark
MySQL性能优化（一）MySQL中SQL语句是如何执行的？
分时电价环境下用户负荷需求响应分析方法(Matlab代码实现）
Java实现 LeetCode 76 最小覆盖子串
《Java并发编程实战》第十章避免活跃性危急读书笔记
修改磁盘格式
【2023最新教程】从0到1构建移动端应用自动化测试（建议收藏）
SplitContainer容器控件左右Panel大小调整
javascript 显示一定范围内的素数（质数）
第一百八十八节，jQuery，选项卡 UI
42.第十章网络协议和管理配置 -- 局域网和TCP/IP 协议栈(三)
SQL Server未找到或无法訪问server问题解决
LabVIEW中前面板对象的最大数量
java线程函数
200. 岛屿数量-dfs方法

相关主题

Hadoop项目实战
Hadoop Shell命令
Hadoop HA 部署
一、hadoop部署
hadoop技术
Hadoop面试
Hadoop快速入门
Hadoop之HDFS
hadoop的概念
Hadoop-序列化
Hadoop目录
Hadoop分布式安装
Hadoop的配置
Hadoop-3.3.0 安装
hadoop学习
hadoop-集群搭建
Hadoop——概述
Hadoop什么？
Hadoop 压缩
Hadoop| HDFS

zl程序教程

当前栏目

《Hadoop技术详解》一2.1　目标和动机

相关文章

当前栏目

《Hadoop技术详解》一2.1 目标和动机

相关文章

《Hadoop技术详解》一2.1　目标和动机