Spark-SparkSql
(1)sparkstreaming结合sparksql读取socket实时数据流
Spark Streaming是构建在Spark Core的RDD基础之上的,与此同时Spark Streaming引入了一个新的概念:DStream(Discretized Stream,离散化数据流),表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型,在内部实现上,Spark Streaming会对输入数据按照时间间隔(如1秒)分段,每一段数据转换为Spar
日期 2023-06-12 10:48:40Spark入门实战系列–6.SparkSQL(上)–SparkSQL简介详解大数据
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算
日期 2023-06-12 10:48:40Spark入门实战系列–6.SparkSQL(中)–深入了解SparkSQL运行计划及调优详解大数据
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1.1 运行环境说明 1.1.1 硬软件环境 l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存 l 虚拟软件:VMware® Workstation 9.0.0 build-812388 l 虚拟机操作系统:
日期 2023-06-12 10:48:40Spark入门实战系列–6.SparkSQL(下)–Spark实战应用详解大数据
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1、运行环境说明 1.1 硬软件环境 l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存 l 虚拟软件:VMware® Workstation 9.0.0 build-812388 l 虚拟机操作系统:CentOS 64位
日期 2023-06-12 10:48:40hive on spark VS SparkSQL VS hive on tez
http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details/51448188 hive on spark VS SparkSQL VS hive on tez 前一篇已经弄好了SparkSQL,SparkSQL也有thri
日期 2023-06-12 10:48:40SparkSQL(Spark-1.4.0)实战系列(三)——SparkSQL应用案例
将实验数据Date.txt、Stock.txt、StockDetail.txt(hadoop fs -put /data /data)上传到HDFS上,如下图所示 Date.txt格式如下: //Date.txt文件定义了日期的分类,将每天分别赋予所属的月份、星期、季度等属性 //日期,年月,年,月,日,周几, 将实验数据Date.txt、Stock.txt、StockDetail.t
日期 2023-06-12 10:48:40Sparkstreaming读取Kafka消息再结合SparkSQL,将结果保存到HBase
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import org.apache.spark.SparkConf import org.apache.spark.sql._ import org.apache.spark
日期 2023-06-12 10:48:40Spark(十三)SparkSQL的自定义函数UDF与开窗函数
一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在group by之后使用的sum,avg等 UDTF(User-Defin
日期 2023-06-12 10:48:40Spark(十二)SparkSQL简单使用
一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始:SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝
日期 2023-06-12 10:48:40【大数据】Spark及SparkSQL数据倾斜现象和解决思路
数据倾斜 分类 join其中一个表数据量小,key比较集中分发到某一个或几个reduce的数据远高于平均值大表与小表,空值过多这些空值都由一个reduce处理,处理慢group
日期 2023-06-12 10:48:40