《Hadoop实战手册》一导读
Hadoop实战手册
本书能帮助开发者更方便地使用Hadoop,从而熟练地解决问题。读者会更加熟悉Hadoop相关的各种工具从而进行最佳的实践。
本书指导读者使用各种工具解决各种问题。这些工具包括:Apache Hive、Pig、MapReduce、Mahout、Giraph、HDFS、Accumulo、Redis以及Ganglia。
本书提供了深入的解释以及代码实例。每章的内容包含一组问题集的描述,并对面临的技术挑战提出了解决方案,最后完整地解决了这些问题。每节将单一问题分解成不同的步骤,这样更容易按照步骤执行相关操作。本书覆盖的内容包括:关于HDFS的导入、导出数据,使用Giraph进行图分析,使用Hive、Pig以及MapReduce进行批量数据分析,使用Mahout进行机器学习方法,调试并修改MapReduce作业的错误,使用Apache Accumulo对结构数据进行列存储与检索。
本书的示例中涉及的Hadoop技术同样也可以应用于读者自己所面对的问题。
第1章 Hadoop分布式文件系统——导入和导出数据
1.1 介绍
1.2 使用Hadoop shell命令导入和导出数据到HDFS
1.3 使用distcp实现集群间数据复制
1.4 使用Sqoop从MySQL数据库导入数据到HDFS[](https://yq.aliyun.com/articles/96750)
1.5 使用Sqoop从HDFS导出数据到MySQL
1.6 配置Sqoop以支持SQL Server
1.7 从HDFS导出数据到MongoDB
1.8 从MongoDB导入数据到HDFS
1.9 使用Pig从HDFS导出数据到MongoDB
1.10 在Greenplum外部表中使用HDFS
1.11 利用Flume加载数据到HDFS中
第2章HDFS
第3章 抽取和转换数据
第4章使用Hive、Pig和MapReduce处理常见的任务
第5章高级连接操作
第6章大数据分析
第7章高级大数据分析
第8章调试
第9章系统管理
第10章使用Apache Accumulo进行持久化
《Hadoop MapReduce实战手册》一导读 本书目标是帮助读者学会处理大型的复杂数据集。本书虽从简单的例子开始,但仍然可以看到深入的内容。这是一本简单的一站式指南,传授如何完成复杂的事情。它以一种简单而直接的方式呈现了90个攻略,给出了一步步的指导和真实环境的应用示例。
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
相关文章
- Hadoop操作HDFSAPI 错误org.apache.hadoop.ipc.RemoteException(java.io.IOException)
- Cloudera将于4月底登陆纽交所,基于Hadoop的商业公司前景何在?
- Hadoop实战实例
- Hadoop项目实战
- 《Hadoop实战手册》一1.10 在Greenplum外部表中使用HDFS
- 《Hadoop海量数据处理:技术详解与项目实战》一3.3 如何访问HDFS
- 《Hadoop MapReduce实战手册》一1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它
- 《Hadoop MapReduce实战手册》一1.4 给WordCount MapReduce程序增加combiner步骤
- 《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序
- 《Hadoop海量数据处理:技术详解与项目实战(第2版)》一第1章 绪论
- 《Hadoop海量数据处理:技术详解与项目实战(第2版)》一1.2 Hadoop和大数据
- 《R与Hadoop大数据分析实战》一第1章 R和Hadoop入门
- 《Hadoop与大数据挖掘》——2.3 Hadoop集群命令
- Spark大数据实战之三:Hadoop配置
- hadoop 2.x MapReduce详解