大数据初探——Hadoop历史
2023-09-27 14:26:37 时间
Hadoop是一个开源的分布式框架,是Apache下的一个开源项目。Hadoop运行可以在成千上万个普通机器节点组成的集群上,通过分布式的计算模型和存储模型来处理大数据集。
大数据基础之初识Hadoop 你好看官,里面请!今天笔者讲的是大数据基础:初识Hadoop。不懂可以在评论区留言,我看到会及时回复。 注意:本文仅用与学习参考,不可用于商业用途。
大数据知识面试题-Hadoop Block与Splite区别:Block是HDFS物理上把数据分成一块一块;数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。如下图所示,一个512M的文件在HDFS上存储时,默认一个block为128M,那么该文件需要4个block进行物理存储;若对该文件进行切片,假设以100M大小进行切片,该文件在逻辑上需要切成6片,则需要6个MapTask任务进行处理。
Hadoop是一个开源的分布式框架,是Apache下的一个开源项目。Hadoop运行可以在成千上万个普通机器节点组成的集群上,通过分布式的计算模型和存储模型来处理大数据集。Hadoop具有高容错性、工作在普通的机器节点上扩展性强等众多的优点,是企业选择处理大数据集工具的不二“人”选。
这个框架是另一个大项目的一部分,有数据库管理专家Mike Cafarella与开源技术的支持者DougCutting所构建。两人创建了一个名叫Nutch的网络爬虫与分析系统,该系统使用集群运算同时执行多项任务。之后Nutch演化成两个系统,其中之一就是Hadoop分布式管理系统。
Hadoop核心组成部分 Hadoop Common:包括函数库与工具功能,对Hadoop的其他模块提供支持。 Hadoop分布式文件系统(HDFS):基于Java,具有高扩展性,允许在未经预先安排的多台计算机上存储数据——本质上是打造一个类似单文件系统运作的节点社区。 MapReduce:Hadoop的一个处理大数据集的分布式计算框架,可处理结构化与非结构化数据集,具有可靠性与高容错性。 Yarn(另一种资源协调方式):是一种资源管理框架,用来处理多个分布式架构发送的资源请求调度。 一个HDFS集群主要由Namenode和Datanode组成,其中Namenode只有一个,主要用于管理存储数据的元数据,而Datanode可以有多个,主要用于直接存储数据。 常用数据存取部分 pig:专为数据分析设计的编程语言,无需花费大量时间构建映射和化简操作,即可处理任何类型的数据。 Hive:类似SQL的查询语言——HQL,将sql语句编译到MapReduce中,再跨集群分发出去。 Flume:从应用中收集大量数据,并将它们转入HDFS文件系统中。 Spark:开源集群运算系统,在某些情况下进行数据分析时比MapReduce块100倍。 Sqoop:数据传输工具,可以提取、加载并转换结构化数据。 Hbase:NoSQL数据库一种,可在HDFS上运行。大数据基础之初识Hadoop 你好看官,里面请!今天笔者讲的是大数据基础:初识Hadoop。不懂可以在评论区留言,我看到会及时回复。 注意:本文仅用与学习参考,不可用于商业用途。
大数据知识面试题-Hadoop Block与Splite区别:Block是HDFS物理上把数据分成一块一块;数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。如下图所示,一个512M的文件在HDFS上存储时,默认一个block为128M,那么该文件需要4个block进行物理存储;若对该文件进行切片,假设以100M大小进行切片,该文件在逻辑上需要切成6片,则需要6个MapTask任务进行处理。
相关文章
- Avro:数据序列化系统【Hadoop中的一个子项目】【用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换】
- 大数据-ETL工具:Kettle【单机版】【整合各类文件格式、Hadoop系统】【使用图形化的方式定义ETL程序和工作流】【Window上设计ETL流程--上传Job文件-->Linux系统】
- TensorFlow的开源与Hadoop的开源有什么不同?
- Hadoop和Web 2.0可能让磁带“东山再起”
- java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
- 大数据入门第五天——离线计算之hadoop(上)概述与集群安装
- Hadoop大数据平台提权漏洞CVE-2017-7669 2.8 3.0alpha1 3.0alpha2均受影响
- 第一天:Java源码级实战速成(通过动手实战类、对象等,通过Spark和Hadoop案例代码和源码解析具体指知识的应用、深度详解匿名接口在Spark开发中的运用)
- hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据);HADOOP存储数据压缩方案对比(LZO,gz,ORC)
- Hadoop 数据排序(一)
- hadoop学习要点
- Hadoop学习笔记(两)设置单节点集群
- 2014年大数据应用:Hadoop正处于上升期
- 阿里云大数据三次技术突围:Greenplum、Hadoop和“飞天”
- 大数据面试题百日更新_Hadoop专题(Day04)
- Spark与Hadoop对比
- 【转载】Hadoop官方文档翻译——HDFS Architecture 2.7.3
- 大数据环境搭建(一):Hadoop编译
- 大数据Hadoop(十二):HDFS的API操作