您现在的位置是：首页 > 数据库

当前栏目

Spark SQL性能优化

SQL 性能 Spark 优化

2023-09-14 08:59:49 时间

针对Spark SQL 性能调优参数如下：

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.api.java.JavaSQLContext;

import org.apache.spark.sql.api.java.Row;

import org.apache.spark.sql.hive.api.java.JavaHiveContext;


    public static void main(String[] args) {

        SparkConf conf = new SparkConf().setAppName("simpledemo").setMaster("local");

        conf.set("spark.sql.codegen", "false");

        conf.set("spark.sql.inMemoryColumnarStorage.compressed", "false");

        conf.set("spark.sql.inMemoryColumnarStorage.batchSize", "1000");

        conf.set("spark.sql.parquet.compression.codec", "snappy");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaSQLContext sqlCtx = new JavaSQLContext(sc);

        JavaHiveContext hiveCtx = new JavaHiveContext(sc);

        List Row  result = hiveCtx.sql("SELECT foo,bar,name from pokes2 limit 10").collect();

        for (Row row : result) {

            System.out.println(row.getString(0) + "," + row.getString(1) + "," + row.getString(2));

        }

    }

}

Beeline 命令行设置优化参数

beeline  set spark.sql.codegen=true;

SET spark.sql.codegen=true

spark.sql.codegen=true

Time taken: 1.196 seconds

重要参数说明

spark.sql.codegen Spark SQL在每次执行次，先把SQL查询编译JAVA字节码。针对执行时间长的SQL查询或频繁执行的SQL查询，此配置能加快查询速度，因为它产生特殊的字节码去执行。但是针对很短(1 - 2秒)的临时查询,这可能增加开销,因为它必须先编译每一个查询。

spark.sql.inMemoryColumnarStorage.batchSize：

When caching SchemaRDDs, Spark SQL groups together the records in the RDD in batches of the size given by this option (default: 1000), and compresses each batch. Very small batch sizes lead to low compression, but on the other hand very large sizes can also be problematic, as each batch might be too large to build up in memory.

MySQL性能优化（硬件，系统配置，表结构，SQL语句）想必大家都知道，面试期间一提到数据库，就会聊到数据库优化相关问题。网上关于数据库优化的文章也是眼花缭乱，层出不穷。今天将会通过这篇文章细分几点给大家汇总整理出一套关于MySQL数据库的优化方案，让大家通过学习这篇文章不再被面试官吊打！

猜你喜欢

探讨c#中的unchecked是什么意思,起什么作用?
十几个人的团队如何在短时间里开发一个AI“放牛娃”(下）
ABAP–在查询条件只包含部分索引字段时，如何使用索引详解编程语言
实时查看Linux进程内存使用情况（linux看进程内存）
了解Oracle数据库32位的优缺点（oracle数据库32位）
解读JavaScript代码varie=!-[1,]最短的IE判定代码
用Matlab绘制相平面图「建议收藏」
完成端口与线程池的关系_端口触发
Oracle清理临时表空间：实现数据库优化（oracle清理临时表空间）
MySQL数据大小一行数据可以有多大（mysql一条数据有多大）
91%的人被迫远程办公时，GPU虚拟化的刚需开始激增
Linux如何轻松获取系统权限（linux获得权限）
探究Redis的多种应用场景与实用价值（redis有什么用处）
Xmind 2022 for Mac(思维导图软件)
深入浅出redis连接是否需要账号（redis连接有账号吗）
Redis读取操作性能分析（redis读取耗时）
linux常用指令
【SQL Server 杀死锁：解除数据库争用的拯救者】（sqlserver杀死锁）
MySQL与JavaScript结合，实现卓越前端开发（jsmysql）

相关主题

mysql中的sql
SQL 语法
SQL性能优化
SQL之视图
【sql】SQL优化

zl程序教程

当前栏目

Spark SQL性能优化

相关文章