[转]大数据学习路线
偶遇大数据学习路线,赶上一次科技革命不容易,追求下,要有所作为!
一、Hadoop入门,了解什么是Hadoop
1、Hadoop产生背景
2、Hadoop在大数据、云计算中的位置和关系
3、国内外Hadoop应用案例介绍
4、国内Hadoop的就业情况分析及课程大纲介绍
5、分布式系统概述
6、Hadoop生态圈以及各组成部分的简介
7、Hadoop核心MapReduce例子说明
二、分布式文件系统HDFS,是数据库管理员的基础课程
1、分布式文件系统HDFS简介
2、HDFS的系统组成介绍
3、HDFS的组成部分详解
4、副本存放策略及路由规则
5、NameNode Federation
6、命令行接口
7、Java接口
8、客户端与HDFS的数据流讲解
9、HDFS的可用性(HA)
三、初级MapReduce,成为Hadoop开发人员的基础课程
1、如何理解map、reduce计算模型
2、剖析伪分布式下MapReduce作业的执行过程
3、Yarn模型
4、序列化
5、MapReduce的类型与格式
6、MapReduce开发环境搭建
7、MapReduce应用开发
8、更多示例讲解,熟悉MapReduce算法原理
四、高级MapReduce,高级Hadoop开发人员的关键课程
1、使用压缩分隔减少输入规模
2、利用Combiner减少中间数据
3、编写Partitioner优化负载均衡
4、如何自定义排序规则
5、如何自定义分组规则
6、MapReduce优化
7、编程实战
五、Hadoop集群与管理,是数据库管理员的高级课程
1、Hadoop集群的搭建
2、Hadoop集群的监控
3、Hadoop集群的管理
4、集群下运行MapReduce程序
六、ZooKeeper基础知识,构建分布式系统的基础框架
1、ZooKeeper体现结构
2、ZooKeeper集群的安装
3、操作ZooKeeper
七、HBase基础知识,面向列的实时分布式数据库
1、HBase定义
2、HBase与RDBMS的对比
3、数据模型
4、系统架构
5、HBase上的MapReduce
6、表的设计
八、HBase集群及其管理
1、集群的搭建过程讲解
2、集群的监控
3、集群的管理
九、HBase客户端
1、HBase Shell以及演示
2、Java客户端以及代码演示
十、Pig基础知识,进行Hadoop计算的另一种框架
1、Pig概述
2、安装Pig
3、使用Pig完成手机流量统计业务
十一、Hive,使用SQL进行计算的Hadoop框架
1、数据仓库基础知识
2、Hive定义
3、Hive体系结构简介
4、Hive集群
5、客户端简介
6、HiveQL定义
7、HiveQL与SQL的比较
8、数据类型
9、表与表分区概念
10、表的操作与CLI客户端演示
11、数据导入与CLI客户端演示
12、查询数据与CLI客户端演示
13、数据的连接与CLI客户端演示
14、用户自定义函数(UDF)的开发与演示
十二、Sqoop,Hadoop与rdbms进行数据转换的框架
1、配置Sqoop
2、使用Sqoop把数据从MySQL导入到HDFS中
3、使用Sqoop把数据从HDFS导出到MySQL中
十三、Storm
1、Storm基础知识:包括Storm的基本概念和Storm应用场景,体系结构与基本原理,Storm和Hadoop的对比
2、Storm集群搭建:详细讲述Storm集群的安装和安装时常见问题
3、Storm组件介绍: spout、bolt、stream groupings等
4、Storm消息可靠性:消息失败的重发
5、Hadoop 2.0和Storm的整合:Storm on YARN
6、Storm编程实战
相关文章
- 学习yii2.0——数据缓存、片段缓存、页面缓存、http缓存
- Caffe学习系列(11):数据可视化环境(python接口)配置
- springboot学习章节-spring常用配置
- sklearn学习笔记(一)——数据预处理 sklearn.preprocessing
- 学习8个简单步骤让你成为数据科学家
- apache虚拟主机的学习与应用
- 学习8个简单步骤让你成为数据科学家
- 机器学习笔记 - 数据和统计常用术语
- AI:2020年6月23日北京智源大会演讲分享之机器学习专题论坛 ——09:05-09:45Yolanda Gil教授《Thoughtful AI: Forging A New Partnersh》
- CV:计算机视觉技最强学习路线之CV简介(传统视觉技术/相关概念)、早期/中期/近期应用领域(偏具体应用)、经典CNN架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装、常用数据集、编程技巧
- Keras之TCN:基于keras框架利用时间卷积网络TCN算法对上海最高气温实现回归预测(把时间序列数据集转化为有监督学习数据集)案例
- 基于Bi-LSTM深度学习网络的遥感数据分类matlab仿真
- Java学习路线-26:字节流与字符流OutputStream/InputStream/Writer/Reader
- 开源的13个Spring Boot 优秀学习项目!超53K星,一网打尽!
- Pytorch迁移学习---训练花卉数据集
- AI学习之路(13): 创建随机张量3
- Python 数据分析师必备的入门学习路线和技能
- Python语言开发学习之使用Python预测天气
- 非、半、结构化数据学习【转载】
- darktrace 亮点是使用的无监督学习(贝叶斯网络、聚类、递归贝叶斯估计)发现未知威胁——使用无人监督 机器学习反而允许系统发现罕见的和以前看不见的威胁,这些威胁本身并不依赖 不完善的训练数据集。 学习正常数据,发现异常!
- 机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当,或者模型中加入惩罚项
- swoole httpserver学习
- Kafka基础篇学习笔记整理
- Redis进阶学习06--分布式缓存--上
- 【单片机/普中A2】学习笔记5-矩阵键盘
- JavaEE——Spring学习笔记06【Maven创建Web工程】
- 学习经验分享【24】全网最简单标注数据集方法