《Spark与Hadoop大数据分析》一一2.5 小结
2023-09-11 14:19:08 时间
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.5节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
Apache Hadoop 提供了一个用于大数据存储的可靠且可扩展的框架(HDFS),以及一个用于运行和管理多个大数据应用程序的强大集群资源管理框架(YARN)。Apache Spark 提供了大数据处理的内存级性能,以及用于交互式探索性分析、实时分析、机器学习和图分析的库和 API。虽然 MR 是 Hadoop 上的主要处理引擎,但它有很多缺点,例如性能较差和设计应用程序时不够灵活。Apache Spark 是 MR 的替代品。所有基于 MR 的工具(如 Hive、Pig、Mahout 和 Crunch 等)已经开始把 Apache Spark 作为除 MR 之外的附加执行引擎。
如今,大数据项目正在许多企业中实施,从大的财富 500 强公司到小型初创企业。如果组织能通过易于使用的工具来开发应用和探索数据,从原始数据快速导向决策,那么他们就可以获得优势。Apache Spark 将把这种速度和精巧带给 Hadoop 集群。
在下一章,我们要深入探讨并学习 Spark。
《Spark与Hadoop大数据分析》——3.7 小结 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.7节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
《Spark与Hadoop大数据分析》——3.6 Spark 资源管理器:Standalone、YARN和Mesos 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.6节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
《Spark与Hadoop大数据分析》——3.5 持久化与缓存 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.5节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
相关文章
- Hadoop多个集群之间的数据拷贝、hdfs快照管理、hdfs回收站管理
- 07 Hadoop集群搭建
- 如何选择满足需求的SQL on Hadoop/Spark系统
- 深入理解Spark:核心思想与源码分析. 3.5 Hadoop相关配置及Executor环境变量
- 关于CentOS 6下Hadoop占用系统态CPU高的处理办法
- Docker生态会重蹈Hadoop的覆辙吗?
- Spark与Hadoop的对比
- 从Hadoop到Spark的架构实践
- 《Spark与Hadoop大数据分析》一一
- 《Spark与Hadoop大数据分析》一一2.3 为何把 Hadoop 和 Spark 结合使用
- 《Spark与Hadoop大数据分析》一一2.4 安装 Hadoop 和 Spark 集群
- 《Spark与Hadoop大数据分析》一一3.6 Spark 资源管理器:Standalone、YARN和Mesos
- 《Spark与Hadoop大数据分析》一一3.7 小结
- Spark大数据实战之二:安装Hadoop
- Hadoop学习---CentOS中hadoop伪分布式集群安装
- [Spark]如何设置使得spark程序不输出 INFO级别的内容
- hadoop-mapreduce中reducetask执行分析
- Dr. Elephant:Hadoop和Spark的优化“神器”
- 量化派基于Hadoop、Spark、Storm的大数据风控架构--转
- Spark-----Spark 与 Hadoop 对比,Spark 集群搭建与示例运行,RDD算子简单入门
- hadoop集群的搭建