您现在的位置是：首页 > 工具

当前栏目

数仓工具—Hive streaming(10)

工具 10 hive 数仓 Streaming

2023-09-11 14:15:37 时间

streaming

HIVE是通过利用或扩展Hadoop的组件功能来运行的，常见的抽象有InputFormat、OutputFormat、Mapper、Reducer，还包含一些自己的抽象接口，例如SerializerDeserializer(SerDe)、用户自定义函数（UDF）和StorageHandlers。这些组件都是java组件，不过hive将这些复杂的底层实现隐藏起来了，而提供给用户通过SQL语句执行的方式，而不是使用java代码

streaming 提供了另一种处理数据的方式。在streaming job中，Hadoop StreamingAPI会为外部进程开启一个I/O管道。然后数据会被传给这个进程，然后数据从标准输入中读取数据，然后通过标准输出来写结果数据，最后返回到Streaming API job。尽管HIVE并没有直接使用Hadoop的StreamingAPI，不过他们的工作方式是一致的。这种管道计算模型对于Unix操作系统以及其衍生系统，如Linux和Mac OS X的用户来说是非常熟悉的。

Streaming的执行效率通常会比对应的编写UDF或改写InputFormat对象的方式要低。管道中的序列化和反序列化数据通常是低效的。而且以通常的方式很难调试整个程序。不过，对于快速原型设计和支持非java编写的已有的代码是非常有用的。对于那些不想写java代码的HIVE用户来说，这也是一个高效的方式

HIVE中提供了多个语法来使用Streaming，包括：MAP()、REDUCE()、TRANSFORM()，你可以在sql 中使用一些脚本去处理一些任务，脚本分为mapper 端的脚本和reducer 端的脚本，MAP()实际上并非可以强制在map阶段执行Streaming，同样REDUCE(

猜你喜欢

设置tomcat内存设定
通过HTTP协议实现多线程下载
Linux系统日志分析与管理
Grafana v5.4.3 安装报错，安装5.2版本
matplotlib画折线图、直方图、饼图、散点图等常见图形
字符ASCII转换
MongoDB 修改用户密码 2种方法
MySQL 查看所有事件详细情况
java 分布式面试题
Android 系统休眠唤醒 android-suspend
华为云账号实名认证流程（材料及图文教程）
【监控】jvisualvm之jmx远程连接 tomcat war启动应用
apache2.2 虚拟主机配置

相关主题

Mysql之mysql工具
Linux 工具
工具列表
正则表达式工具类
2019-9-2-高效率工具
构建工具
JS工具库
HTML5工具
爬虫工具
工具类的详解

zl程序教程

当前栏目

数仓工具—Hive streaming(10)

streaming

相关文章