《Hadoop海量数据处理:技术详解与项目实战》一导读
Hadoop海量数据处理:技术详解与项目实战
为什么要写这本书
2013年被称为“大数据元年”,标志着世界正式进入了大数据时代,而就在这一年,我加入了清华大学苏州汽车研究院大数据处理中心,从事Hadoop的开发、运维和数据挖掘等方面的工作。从出现之日起,Hadoop就深刻地改变了人们处理数据的方式。作为一款开源软件,Hadoop能让所有人享受到大数据红利,让所有人在大数据时代站在了同一起跑线上。Hadoop很好地诠释了什么是“大道至简,衍化至繁”,Hadoop来源于非常朴素的思想,但是却衍生出大量的组件,让初学者难以上手。
我在学习和工作的过程中,走过很多弯路也做过很多无用功,尽管这是学习新技术的必由之路,但却浪费了大量的时间。我将自己学习和工作的心得记录下来,为了帮助更多像我当年一样的Hadoop学习者,我决定写一本书,一本自己开始Hadoop职业生涯的时候也想读到的书。
第1章 绪论
1.1 Hadoop和云计算
1.2 Hadoop和大数据
1.3 数据挖掘和商业智能
第2章 环境准备
第3章 Hadoop的基石:HDFS
3.1 认识HDFS
3.2 HDFS读取文件和写入文件
3.3 如何访问HDFS
第4章 分而治之的智慧:MapReduce
第5章 SQL on Hadoop:Hive
第6章 SQL to Hadoop : Sqoop
第7章 Hadoop性能调优和运维
应用篇:商业智能系统项目实战
第8章 在线图书销售商业智能系统
第9章 系统结构设计
第10章 在开发之前
第11章 实现数据导入导出模块
第12章 实现数据分析工具模块
第13章 实现业务数据的数据清洗模块
第14章 实现点击流日志的数据清洗模块
第15章 实现购书转化率分析模块
第16章 实现购书用户聚类模块
第17章 实现调度模块
结束篇:总结和展望
第18章 总结和展望
【Hadoop技术篇】hive的优化,经典面试 1) 开启配置:set hive.optimize.bucketmapjoin = true; 2) 一个表的bucket数是另一个表bucket数的==整数倍== 3) bucket列 == join列 4) 满足map join条件
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
相关文章
- hadoop 大数据 介绍
- Hadoop 2.x 之 HA 简介
- Hadoop操作HDFSAPI 错误org.apache.hadoop.ipc.RemoteException(java.io.IOException)
- docker--快速启动功能性Hadoop集群进行功能验证
- 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
- hadoop学习WordCount+Block+Split+Shuffle+Map+Reduce技术详解
- Hadoop - Mac OSX下配置和启动hadoop以及常见错误解决
- 【Hadoop】新建hadoop用户以及用户组,给予sudo权限(转)
- 《Hadoop海量数据处理:技术详解与项目实战》一3.1 认识HDFS
- 《Hadoop技术详解》一2.3 守护进程
- 《Hadoop技术详解》一2.5 管理文件系统元数据
- 《Hadoop技术详解》一2.7 NameNode联盟
- 《Hadoop技术详解》一导读
- 《Hadoop海量数据处理:技术详解与项目实战(第2版)》一基础篇:Hadoop基础
- 《Hadoop海量数据处理:技术详解与项目实战(第2版)》一1.4 小结
- Hadoop HDFS 3.2的部署
- 《深入理解大数据:大数据处理与编程实践》一一2.3 集群分布式Hadoop系统安装基本步骤
- hadoop(1):centos 安装 hadoop & hive
- 【大数据Hadoop】Hadoop 3.x 新特性总览