一些Hadoop不为人知的东西详解大数据
Append-only文件访问方式
HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如,HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable,支持 HBase API,是一个零管理实时数据库。
系统集成
HDFS 不兼容 POSIX 和 NFS。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。
备份和恢复
Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。
维护和升级
任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。
开源软件选择
在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目。
转载请注明来源网站:blog.ytso.com谢谢!
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/9718.html
分布式文件系统,分布式数据库区块链并行处理(MPP)数据库,数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集相关文章
- 大数据spark、hadoop、hive、hbase面试题及解析[通俗易懂]
- Hadoop(四)HDFS集群详解大数据
- Hadoop(十)Hadoop IO之数据完整性详解大数据
- Hadoop(十一)Hadoop IO之序列化与比较功能实现详解大数据
- Hadoop综合练习第五节–在Eclipse中安装Hadoop插件及测试(Linux操作系统)详解大数据
- Hadoop综合练习第十节–HBase安装部署详解大数据
- Hadoop伪分布安装详解(四)大数据
- Hadoop之MapReduce详解大数据
- Hadoop本地调试详解大数据
- Hadoop shell详解大数据
- Hadoop 项目及结构详解大数据
- Hadoop生态系统详解大数据
- hadoop的client搭建-即集群外主机访问hadoop详解大数据
- spring hadoop 访问hbase入门详解大数据
- hadoop入门:hadoop使用shell命令总结详解大数据
- hadoop 知识点总结详解大数据
- 万亿数据下Hadoop的核心竞争力详解大数据
- Hadoop 3.x 新特性剖析系列1详解大数据
- Hadoop – Kylin On OLAP详解大数据
- 高可用Hadoop平台-实战详解大数据
- 高可用Hadoop平台-运行MapReduce程序详解大数据
- 高可用Hadoop平台-探索详解大数据
- Hadoop不适合处理实时数据的原因剖析详解大数据
- reduce hadoop利用MySQL、MapReduce、Hadoop轻松解决大数据问题(mysqlmap)
- 十八款Hadoop工具帮你驯服大数据【转】