您现在的位置是：首页 > 其他

当前栏目

用集群脚本功能安装大象医生优化你的大数据作业

安装集群数据优化功能脚本作业医生

2023-09-27 14:28:01 时间

dr-elephant是linkedin开源的大数据作业诊断优化工具，可以读取作业的日志信息，给出可视化的问题诊断和优化建议。

本文介绍如何在emr集群上安装大象医生，并提供一个优化hive参数的完整示例。大象诊断的详情文档可以看官方文档，后续本博客也会发表一些使用经验。
注意：目前大象医生还不支持spark2，社区正在开发，敬请期待。

安装大象医生集群脚本功能介绍

参照集群脚本功能介绍

下载脚本，放在您的oss合适的目录里。

本文用的示例集群是EMR3.4.2版本,3节点，4核16GB的默认配置。

集群列表页面点击对应集群的管理按钮左侧菜单单击集群脚本，进入该集群的集群脚本执行界面单击右上角创建并执行，进入创建界面。选择刚才的脚本，设置名字，节点请只选择master节点,ha集群选择集群详情中第一个master节点，点击确认，完成添加并执行操作。集群脚本列表可以看到新创建的集群脚本，点击刷新可以更新集群脚本的状态。等待集群脚本完成安装完成后,可以在master节点的/root/dr-elephant-2.0.13/logs/application.log看到Listening for HTTP on /0.0.0.0:8098说明启动成功，按照文档用端口动态转发功能打开UI，服务端口是8098。
本示例用

ssh -i /path/id_rsa -N -L 8158:ip:8098 root@ip,
本地浏览器打开http://localhost:8158/,可以看到：

运行作业并优化运行示例程序

使用交互式工作台的的hivedemo，依次运行，直到下面的语句运行结束。

查看运行诊断

等待几分钟，可以在大象诊断的UI上看到刚才hive作业的诊断

有个reducer Memory的颜色不是绿色，点击查看，可以看到是分配的reduce内存多，而实际用的少

点击explain，可以看到解释和优化建议

根据优化建议，我们调整一下作业内容，set mapreduce.reduce.memory.mb=600;,新建一张表，

等待几分钟，可以看到这次诊断没有
相应提示了。

基于阿里ECS的管理运行模式的展望和科学统计下用户使用情况的模型建立计算机是笔者从小到大一直感兴趣的领域，服务器就像是自己表达欲望的一种延申，是一种关于服务器管理员自己个人的情感和想法的表达。搭建网站，这可以是一个有关于内容创作的网站像罗列世界上最奇形怪状的云朵。在阿里ECS上搭建语音服务器，指令行处理方式，对于逻辑能力要求更高，对于从事软件开发和服务器数据库的工作来说，这样的一份工具实在是太完美了。
数道云解析：基于Hadoop集群环境的数据采集和舆情监测技术分析，Hadoop在大数据平台搭建中扮演着何种角色？基于Hadoop集群环境的数据采集系统，利用分布式网络爬虫进行数据抓取,以HDFS作为底层存储系统,在其上构建基于HBase的分布式数据库对数据进行统一存储管理。然后根据采集的数据，通过检索的形式分类数据，进行一个深层次的数据分析工作。
阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

猜你喜欢

《Python自然语言处理》——导读
DECLARE - 定义一个游标
值得学习的技术人——廖雪峰
【JavaScript 零基础入门】内置对象（二）------ Date 对象
Java中gson的使用
GPG 非对称加密
我们没有退路了
Java并发编程：Thread类的使用介绍
批驳：单元測试自己測效果不好，别人測效果才好
【历史上的今天】10 月 27 日：世界上第一次网络瘫痪；网络广告的诞生；短视频鼻祖 Vine 关闭
网络工具
Nginx反爬虫：禁止某些User Agent抓取网站
抄360一个关键的洁净实现（一）
ant design pro （八）构建和发布

相关主题

HBase 集群安装
安装docker
xtrabackup 安装
kubeadm安装kubernetes集群
zookeeper集群安装
vmware tool安装

zl程序教程

当前栏目

用集群脚本功能安装大象医生优化你的大数据作业

相关文章