您现在的位置是：首页 > 其它

当前栏目

HIVE的transform函数的使用

函数 hive transform 使用

2023-09-14 08:58:38 时间

Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能，适合实现Hive中没有的功能又不想写UDF的情况。例如，按日期统计每天出现的uid数，通常用如下的SQL

SELECT date, count(uid)
FROM xxx
GROUP BY date

但是，如果我想在reduce阶段对每天的uid形成一个列表，进行排序并输出，这在Hive中没有现成的功能。那么，可以自写脚本实现该功能，并用TRANSFORM关键字调用

SELECT TRANSFORM(date, uid)
FROM xxx
CLUSTER BY date

这是一个类似streaming的功能，但是可以更方便的访问Hive中的数据，也可以把SQL语句和自写脚本整合在一起运行。

简单分析官网上的一个例子

FROM (
    FROM pv_users
    SELECT TRANSFORM(pv_users.userid, pv_users.date)
    USING 'map_script'
    AS dt, uid
    CLUSTER BY dt
) map_output
INSERT OVERWRITE TABLE pv_users_reduced
SELECT TRANSFORM(map_output.dt, map_output.uid)
USING 'reduce_script'
AS date, count;

这段代码的大致工作流程描述如下：

map_script作为mapper，reduce_script作为reducer。将pv_users表中的userid, date两列作为mapper的输入字段，处理后的输出的前两个字段分别命名为dt, uid，并按照dt字段作partition和sort送给reduce阶段处理。reducer的输入字段为dt和uid，输出处理后的前两个字段，并命名为date, count，写入到pv_users_reduced表中。

这里有几个细节：

mapper和reducer用到的script可以是任何可执行文件。注意如果用到的是本地文件，应当在语句开始前用ADD FILE或ADD FILES将文件加入进来
mapper和reducer的输入输出都是以TAB为分隔符
如果USING ‘script’语句后面没有AS，则Hive默认script的输出中第一个TAB之前的字段为key，后面的部分全部为value。若指定了AS，则严格按照AS后面的字段数输出，例如AS dt, uid，则输出前两个字段并忽略后面的字段。此外，AS语句可以指定数据类型，如AS (date STRING, count INT)。默认都是string类型。
CLUSTER BY关键字是DISTRIBUTE BY和SORT BY的简写，这两者可以认为对应与Hadoop的partition和sort过程。如果partition和sort的key是不同的，可以使用DISTRIBUTE BY和SORT BY分别指定。
MAP和REDUCE关键字是SELECT TRANSFORM关键字的别名，原文中给出了上面等价代码
因此，原文中特别提醒，MAP并没有强制产生一个map过程的作用，REDUCE同理。只是为了阅读更清晰。

FROM (
    FROM pv_users
    MAP pv_users.userid, pv_users.date
    USING 'map_script'
    AS dt, uid
    CLUSTER BY dt
) map_output
INSERT OVERWRITE TABLE pv_users_reduced
REDUCE map_output.dt, map_output.uid
USING 'reduce_script'
AS date, count;

转自：https://blog.csdn.net/u013385925/article/details/78780798

猜你喜欢

autoit 无文件攻击看来大多数都是编译成exe 而不会直接脚本执行因为要在用户机器上安装autoit太繁琐
List集合之LinkedList（二）通过源码看迭代器实现
Android 性能优化之Service
在OpenCV里实现均值平滑3
如何分析SAPPSPRO-S_MAT_ENHANC_COMM问题
Atitit. 注册表操作查询修改 api与工具总结 java c# php js python 病毒木马的原理
AngularJS in Action读书笔记2——view和controller的那些事儿
子慕谈设计模式系列（二）——设计模式六大原则
目前5G SoC 芯片技术成熟吗
RabbitMq 6种使用模式
机器人和人工智能——从现在看未来
死锁、进程通信
快速试错
@property （nonatomic,retain)中的nonatom和retain的意思
中断、轮询、事件驱动、消息驱动、数据流驱动(Flow-Driven)？
惠普ENVY13笔记本怎么U盘重装Win10系统教学
【LibTorch】Microsoft C++ 异常: c10::NotImplementedError，位于内存位置 0x000000E8A9DAEDC0 处。

相关主题

Python函数使用
go的函数使用
C++ 函数的使用
使用CoreData [2]
使用过的设计模式
mysql函数使用
feign 使用
使用pycharm
函数的使用
C/C++函数使用
使用docker
python类的使用
shiro使用
Android资源使用

zl程序教程

当前栏目

HIVE的transform函数的使用

相关文章