您现在的位置是：首页 > 数据库

当前栏目

spark sql简单示例

SQL Spark 简单示例

2023-09-14 08:59:49 时间

import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import org.apache.spark.sql.api.java.DataType; import org.apache.spark.sql.api.java.JavaSQLContext; import org.apache.spark.sql.api.java.JavaSchemaRDD; import org.apache.spark.sql.api.java.Row; import org.apache.spark.sql.api.java.UDF1; import org.apache.spark.sql.hive.api.java.JavaHiveContext;
* 使用JavaHiveContext时 * 1:需要在classpath下面增加三个配置文件：hive-site.xml,core-site.xml,hdfs-site.xml * 2:需要增加postgresql或mysql驱动包的依赖 * 3:需要增加hive-jdbc,hive-exec的依赖 public class SimpleDemo { public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("simpledemo").setMaster("local"); JavaSparkContext sc = new JavaSparkContext(conf); JavaSQLContext sqlCtx = new JavaSQLContext(sc); JavaHiveContext hiveCtx = new JavaHiveContext(sc); // testQueryJson(sqlCtx); // testUDF(sc, sqlCtx); testHive(hiveCtx); sc.stop(); sc.close(); } //测试spark sql直接查询JSON格式的数据 public static void testQueryJson(JavaSQLContext sqlCtx) { JavaSchemaRDD rdd = sqlCtx.jsonFile("file:///D:/tmp/tmp/json.txt"); rdd.printSchema(); // Register the input schema RDD rdd.registerTempTable("account"); JavaSchemaRDD accs = sqlCtx.sql("SELECT address, email,id,name FROM account ORDER BY id LIMIT 10"); List Row result = accs.collect(); for (Row row : result) { System.out.println(row.getString(0) + "," + row.getString(1) + "," + row.getInt(2) + "," + row.getString(3)); } JavaRDD String names = accs.map(new Function Row, String () { @Override public String call(Row row) throws Exception { return row.getString(3); } }); System.out.println(names.collect()); }
//测试spark sql的自定义函数 public static void testUDF(JavaSparkContext sc, JavaSQLContext sqlCtx) { // Create a account and turn it into a Schema RDD ArrayList AccountBean accList = new ArrayList AccountBean accList.add(new AccountBean(1, "lily", "lily@163.com", "gz tianhe")); JavaRDD AccountBean accRDD = sc.parallelize(accList); JavaSchemaRDD rdd = sqlCtx.applySchema(accRDD, AccountBean.class); rdd.registerTempTable("acc"); // 编写自定义函数UDF sqlCtx.registerFunction("strlength", new UDF1 String, Integer () { @Override public Integer call(String str) throws Exception { return str.length(); } }, DataType.IntegerType); // 数据查询 List Row result = sqlCtx.sql("SELECT strlength(name),name,address FROM acc LIMIT 10").collect(); for (Row row : result) { System.out.println(row.getInt(0) + "," + row.getString(1) + "," + row.getString(2)); } } //测试spark sql查询hive上面的表 public static void testHive(JavaHiveContext hiveCtx) { List Row result = hiveCtx.sql("SELECT foo,bar,name from pokes2 limit 10").collect(); for (Row row : result) { System.out.println(row.getString(0) + "," + row.getString(1) + "," + row.getString(2)); } }

猜你喜欢

无外网环境下docker安装kong、postgresql、konga (一)
oracle数据库定义变量和使用_oracle执行变量
这10 个很“哇塞”的Web资源，前端必备的神仙级网站
python 跨进程通信可以使用哪些消息中间件？
轻松学会linux锐捷登录，掌握高效办公技巧（linux锐捷登录）
毕业设计So Easy：FaceNet+RetinaFace人脸识别管理系统
给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。
MySQL查看建表语句实例详解（mysql 查看建表语句）
Linux下通过ARP包实现网络连接（linux 发送arp包）
Linux高性能计算的挚爱——CST（linuxcst）
（四）MicroPython——点阵屏
Oracle数据库中的触发器类型概述（oracle触发器类型）
Python Queue队列实现线程通信
ORA-54552: height entries must be >= to ground height entries ORACLE 报错故障修复远程处理
Oracle双活技术：保障同城企业高效可用（oracle同城双活）

相关主题

SQL语句优化
SQL与Database
Spark SQL
sql 之 group by
sql server中的cte
SQL INTERSECT

zl程序教程

当前栏目

spark sql简单示例

相关文章