zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

spark SQL和hive到底什么关系

SQLSpark 什么 关系 到底 hive
2023-09-11 14:18:05 时间

Hive是一种基bai于duHDFS的数据仓库,并且提供了基于SQL模型的,针对存储了大数zhi据的数据仓库,进行分布式dao交互查询的查询引擎。

SparkSQL并不能完全替代Hive,它替代的是Hive的查询引擎,SparkSQL由于其底层基于Spark自身的基于内存的特点,因此速度是Hive查询引擎的数倍以上,Spark本身是不提供存储的,所以不可能替代Hive作为数据仓库的这个功能。

SparkSQL相较于Hive的另外一个优点,是支持大量不同的数据源,包括hive、json、parquet、jdbc等等。SparkSQL由于身处Spark技术堆栈内,基于RDD来工作,因此可以与Spark的其他组件无缝整合使用,配合起来实现许多复杂的功能。比如SparkSQL支持可以直接针对hdfs文件执行sql语句。