大数据学习——hive函数
2023-09-11 14:18:37 时间
1 内置函数
测试各种内置函数的快捷方法:
1、创建一个dual表
create table dual(id string);
2、load一个文件(一行,一个空格)到dual表
3、select substr('angelababy',2,3) from dual;
2 自定义函数UDF(user-defined function)和transform
自定义函数类别
UDF 作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)
UDAF(用户定义聚集函数):接收多个输入数据行,并产生一个输出数据行。(count,max)
UDTF(User-Defined Table-Generating Functions),一进多出(输入一行,输出多行),比如:collect_set()、collect_list()
1、先开发一个java类,继承UDF,并重载evaluate方法
package cn.itcast.bigdata.udf import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public final class Lower extends UDF{ public Text evaluate(final Text s){ if(s==null){return null;} return new Text(s.toString().toLowerCase()); } }
2、打成jar包上传到服务器
3、将jar包添加到hive的classpath
add JAR /home/hadoop/udf.jar;
4、创建临时函数与开发好的java class关联
create temporary function tolowercase as 'cn.itcast.bigdata.udf.ToProvince';
5、即可在hql中使用自定义的函数tolowercase ip
Select tolowercase(name),age from t_test;
相关文章
- Intel汇编语言程序设计学习-第四章 数据传送、寻址和算术运算-上
- [转] linux学习第四十四篇:Nginx安装,Nginx默认虚拟主机,Nginx域名重定向
- C#学习记录——分部类
- [吴恩达机器学习笔记]14降维1-2降维的应用数据压缩与数据可视化
- 机器学习笔记之线性分类——感知机算法
- 大数据与机器学习:实践方法与行业案例.2.1 数据闭环
- 一位缺觉的父亲记录了他双胞胎宝宝的睡眠数据 并交给机器学习,结果……
- 待学习
- 《抓住听众心理——演讲者要知道的100件事》一22 .人们会从错误中学习
- 【玩转数据系列十二】PAI平台深度学习Caffe框架实现图像分类的模型训练
- 《机器学习与数据科学(基于R的统计学习方法)》——2.12 读取Twitter数据
- 《Python机器学习——预测分析核心算法》——第2章 通过理解数据来了解问题
- (数据科学学习手札146)geopandas中拓扑非法问题的发现、诊断与修复
- (数据科学学习手札96)在geopandas中叠加在线地图
- (数据科学学习手札80)用Python编写小工具下载OSM路网数据
- (数据科学学习手札45)Scala基础知识
- (数据科学学习手札20)主成分分析原理推导&Python自编函数实现
- (数据科学学习手札17)线性判别分析的原理简介&Python与R实现
- Java学习-041-颜色工具类(RGB,HEX)
- 《计算机视觉:模型、学习和推理》——2.4 条件概率
- 在深度学习的视觉VISION领域数据预处理的魔法常数magic constant、黄金数值: mean=[0.485, 0.456, 0.406],std=[0.229, 0.224, 0.225]
- 深度学习目标检测:YOLOv5实现车辆检测(含车辆检测数据集+训练代码)
- java解析XML学习总结——SAXReader解析xml文件数据
- 大数据时代,如何让学习更高效
- LCD12864学习
- 2020最新版大数据学习路线
- SQL学习之使用常用函数处理数据
- 深度学习 Day26——利用Pytorch实现天气识别
- Python入门学习笔记第五章——if条件句~~~