详解Hadoop 2.0中的CDH4 MR配置
2023-04-18 14:41:43 时间
MR1
cdh不建议使用MRv2.0作为生产环境,故依旧提供了mr1的包
mr1-2.0.0-mr1-cdh4.1.2.tar.gz
解压后copy至原hadoop路径,有如下文件冲突:
- [root@h011171 ~]# cp -r hadoop-2.0.0-cdh4.1.2/* /usr/local/hadoop/
- cp: overwrite `/usr/local/hadoop/bin/rcc’? y
- cp: overwrite `/usr/local/hadoop/bin/hadoop’? y
- cp: overwrite `/usr/local/hadoop/cloudera/cdh_version.properties’? y
- cp: overwrite `/usr/local/hadoop/cloudera/apply-patches’? y
- cp: overwrite `/usr/local/hadoop/cloudera/build.properties’? y
- cp: overwrite `/usr/local/hadoop/cloudera/CHANGES.cloudera.txt’? y
均覆盖即可
基本兼容cdh3 mr1的所有mapreduce配置,包括公平调度器/hadoop acl权限设置,
使用
- ./bin/start-mapred.sh
- ./bin/stop-mapred.sh
监控调度界面同原CDH3
MR2(YARN)
MRv2最基本的设计思想是将JobTracker的两个主要功能,即资源管理和作业调度/监控分成两个独立的进程。在该解决方案中包含两个组件:全局的ResourceManager(RM)和与每个应用相关的ApplicationMaster(AM)。这里的“应用”指一个单独的MapReduce作业或者DAG作业。RM和与NodeManager(NM,每个节点一个)共同组成整个数据计算框架。RM是系统中将资源分配给各个应用的最终决策者。AM实际上是一个具体的框架库,它的任务是【与RM协商获取应用所需资源】和【与NM合作,以完成执行和监控task的任务】。
架构描述如下:
配置
mapred-site.xml配置
- <!– YARN –>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- <property>
- <name>mapreduce.jobhistory.address</name>
- <value>h011200.hebe.grid.sina.com.cn:10020</value>
- </property>
- <property>
- <name>mapreduce.jobhistory.webapp.address</name>
- <value>h011200.hebe.grid.sina.com.cn:19888</value>
- </property>
yarn-site.xml配置
启动
- <property>
- <name>yarn.resourcemanager.resource-tracker.address</name>
- <value>h011200.hebe.grid.sina.com.cn:8031</value>
- </property>
- <property>
- <name>yarn.resourcemanager.address</name> # RMtracker地址意同jobtrakcer
- <value>h011200.hebe.grid.sina.com.cn:8032</value>
- </property>
- <property>
- <name>yarn.resourcemanager.scheduler.address</name> # RMscheduler地址意同mv1的jobscheduler
- <value>h011200.hebe.grid.sina.com.cn:8030</value>
- </property>
- <property>
- <name>yarn.resourcemanager.admin.address</name>
- <value>h011200.hebe.grid.sina.com.cn:8033</value>
- </property>
- <property>
- <name>yarn.resourcemanager.webapp.address</name> #RM Web地址同mr1 默认的50030
- <value>h011200.hebe.grid.sina.com.cn:8088</value>
- </property>
- <property>
- <description>Classpath for typical applications.</description>
- <name>yarn.application.classpath</name>
- <value>
- $HADOOP_CONF_DIR,
- $HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,
- $HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,
- $HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,
- $YARN_HOME/*,$YARN_HOME/lib/*
- </value>
- </property>
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce.shuffle</value>
- </property>
- <property>
- <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
- <value>org.apache.hadoop.mapred.ShuffleHandler</value>
- </property>
- <property>
- <name>yarn.nodemanager.local-dirs</name>
- <value>/data1/hadoop/data/yarn/local</value>
- </property>
- <property>
- <name>yarn.nodemanager.log-dirs</name>
- <value>/data1/hadoop/data/yarn/log</value>
- </property>
- <property>
- <description>Where to aggregate logs</description>
- <name>yarn.nodemanager.remote-app-log-dir</name>
- <value>/var/log/hadoop-yarn/apps</value>
- </property>
- <property>
- <name>yarn.app.mapreduce.am.staging-dir</name>
- <value>/user</value>
- </property>
./sbin/start-yarn.sh
会启动本地RM及远程NM
./sbin/mr-jobhistory-daemon.sh start historyserver
启动本地historyserver
RM界面
Job history界面
原文链接:http://minidb.sinaapp.com/?p=138
【编辑推荐】
相关文章
- 直接在代码里面对list集合进行分页
- .NET Framework 4.5新特性详解
- 大数据的简要介绍
- 大数据的由来
- 高斯混合模型的自然梯度变量推理
- timing-wheel 仿Kafka实现的时间轮算法
- 使用Navicat软件连接自建数据库(Linux系统)
- 那一天,我被Redis主从架构支配的恐惧
- Redis 深入了解键的过期时间
- C#使用委托调用实现用户端等待闪屏
- 基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统
- GRAND | 转录调控网络预测数据库
- JFreeChart API中文文档
- 临床相关突变查询数据库
- TIGER | 人类胰岛基因变化查询数据库
- 视频边缘计算网关EasyNVR在视频整体监控解决方案中的应用分析
- Apache Arrow - 大数据在数据湖后的下一个风向标
- 常见的电商数据指标体系
- AKShare-艺人数据-艺人流量价值
- MySQL中多表联合查询与子查询的这些区别,你可能不知道!