zl程序教程

Spark-SparkSql

  • (1)sparkstreaming结合sparksql读取socket实时数据流

    (1)sparkstreaming结合sparksql读取socket实时数据流

    Spark Streaming是构建在Spark Core的RDD基础之上的,与此同时Spark Streaming引入了一个新的概念:DStream(Discretized Stream,离散化数据流),表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型,在内部实现上,Spark Streaming会对输入数据按照时间间隔(如1秒)分段,每一段数据转换为Spar

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–6.SparkSQL(上)–SparkSQL简介详解大数据

    Spark入门实战系列–6.SparkSQL(上)–SparkSQL简介详解大数据

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–6.SparkSQL(中)–深入了解SparkSQL运行计划及调优详解大数据

    Spark入门实战系列–6.SparkSQL(中)–深入了解SparkSQL运行计划及调优详解大数据

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1.1  运行环境说明 1.1.1 硬软件环境 l  主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存 l  虚拟软件:VMware® Workstation 9.0.0 build-812388 l  虚拟机操作系统:

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–6.SparkSQL(下)–Spark实战应用详解大数据

    Spark入门实战系列–6.SparkSQL(下)–Spark实战应用详解大数据

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1、运行环境说明 1.1 硬软件环境 l  主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存 l  虚拟软件:VMware® Workstation 9.0.0 build-812388 l  虚拟机操作系统:CentOS 64位

    日期 2023-06-12 10:48:40     
  • hive on spark VS SparkSQL VS hive on tez

    hive on spark VS SparkSQL VS hive on tez

    http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details/51448188 hive on spark VS SparkSQL VS hive on tez 前一篇已经弄好了SparkSQL,SparkSQL也有thri

    日期 2023-06-12 10:48:40     
  • SparkSQL(Spark-1.4.0)实战系列(三)——SparkSQL应用案例

    SparkSQL(Spark-1.4.0)实战系列(三)——SparkSQL应用案例

    将实验数据Date.txt、Stock.txt、StockDetail.txt(hadoop fs -put /data /data)上传到HDFS上,如下图所示 Date.txt格式如下: //Date.txt文件定义了日期的分类,将每天分别赋予所属的月份、星期、季度等属性 //日期,年月,年,月,日,周几, 将实验数据Date.txt、Stock.txt、StockDetail.t

    日期 2023-06-12 10:48:40     
  • Sparkstreaming读取Kafka消息再结合SparkSQL,将结果保存到HBase

    Sparkstreaming读取Kafka消息再结合SparkSQL,将结果保存到HBase

    import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import org.apache.spark.SparkConf import org.apache.spark.sql._ import org.apache.spark

    日期 2023-06-12 10:48:40     
  • Spark(十三)SparkSQL的自定义函数UDF与开窗函数

    Spark(十三)SparkSQL的自定义函数UDF与开窗函数

    一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在group by之后使用的sum,avg等 UDTF(User-Defin

    日期 2023-06-12 10:48:40     
  • Spark(十二)SparkSQL简单使用

    Spark(十二)SparkSQL简单使用

    一、SparkSQL的进化之路 1.0以前:   Shark 1.1.x开始:SparkSQL(只是测试性的)  SQL 1.3.x:          SparkSQL(正式版本)+Dataframe 1.5.x:          SparkSQL 钨丝

    日期 2023-06-12 10:48:40     
  • 【大数据】Spark及SparkSQL数据倾斜现象和解决思路

    【大数据】Spark及SparkSQL数据倾斜现象和解决思路

    数据倾斜 分类 join其中一个表数据量小,key比较集中分发到某一个或几个reduce的数据远高于平均值大表与小表,空值过多这些空值都由一个reduce处理,处理慢group

    日期 2023-06-12 10:48:40