Spark-SparkSql--后端、前端、移动开发、大数据、Java、Python、Vue开发经验分享

Spark-SparkSql

（1）sparkstreaming结合sparksql读取socket实时数据流
Spark Streaming是构建在Spark Core的RDD基础之上的，与此同时Spark Streaming引入了一个新的概念：DStream（Discretized Stream，离散化数据流)，表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型，在内部实现上，Spark Streaming会对输入数据按照时间间隔（如1秒）分段，每一段数据转换为Spar
日期 2023-06-12 10:48:40
Spark入门实战系列–6.SparkSQL（上）–SparkSQL简介详解大数据
【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送 Spark入门实战系列》获取 1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算
日期 2023-06-12 10:48:40
Spark入门实战系列–6.SparkSQL（中）–深入了解SparkSQL运行计划及调优详解大数据
【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送 Spark入门实战系列》获取 1.1 运行环境说明 1.1.1 硬软件环境 l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存 l 虚拟软件：VMware® Workstation 9.0.0 build-812388 l 虚拟机操作系统：
日期 2023-06-12 10:48:40
Spark入门实战系列–6.SparkSQL（下）–Spark实战应用详解大数据
【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送 Spark入门实战系列》获取 1、运行环境说明 1.1 硬软件环境 l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存 l 虚拟软件：VMware® Workstation 9.0.0 build-812388 l 虚拟机操作系统：CentOS 64位
日期 2023-06-12 10:48:40
hive on spark VS SparkSQL VS hive on tez
http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details/51448188 hive on spark VS SparkSQL VS hive on tez 前一篇已经弄好了SparkSQL，SparkSQL也有thri
日期 2023-06-12 10:48:40
SparkSQL（Spark-1.4.0)实战系列（三）——SparkSQL应用案例
将实验数据Date.txt、Stock.txt、StockDetail.txt(hadoop fs -put /data /data）上传到HDFS上，如下图所示 Date.txt格式如下： //Date.txt文件定义了日期的分类，将每天分别赋予所属的月份、星期、季度等属性 //日期，年月，年，月，日，周几，将实验数据Date.txt、Stock.txt、StockDetail.t
日期 2023-06-12 10:48:40
Sparkstreaming读取Kafka消息再结合SparkSQL，将结果保存到HBase
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import org.apache.spark.SparkConf import org.apache.spark.sql._ import org.apache.spark
日期 2023-06-12 10:48:40
Spark（十三）SparkSQL的自定义函数UDF与开窗函数
一自定义函数UDF 在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等 UDAF（User- Defined Aggregation Funcation），用户自定义聚合函数，类似在group by之后使用的sum,avg等 UDTF(User-Defin
日期 2023-06-12 10:48:40
Spark（十二）SparkSQL简单使用
一、SparkSQL的进化之路 1.0以前： Shark 1.1.x开始：SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝
日期 2023-06-12 10:48:40
【大数据】Spark及SparkSQL数据倾斜现象和解决思路
数据倾斜分类 join其中一个表数据量小，key比较集中分发到某一个或几个reduce的数据远高于平均值大表与小表，空值过多这些空值都由一个reduce处理，处理慢group
日期 2023-06-12 10:48:40