Spark概述
Spark 概述
2023-06-13 09:17:16 时间
Spark是快速和通用的大规模数据处理技术。
特点:
1. 速度
执行mr作业程序在内存比hadoop(v<3.x)快100倍,磁盘快10倍
Spark有DAG执行引擎,支持离散数据流和内存计算
2.易于使用,支持java scala python R
提供的80多种高级操作用于并行App,可以使用脚本语言进行交互式编程
3.常规性:结合SQL,Streaming,和复杂计算
4.可以到处运行
Spark,是一种通用的大数据计算框架[1],正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。
Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib用于机器学习,Spark GraphX用于图计算。
Spark主要用于大数据的计算,而Hadoop主要用于大数据的存储(比如HDFS、Hive、HBase等),以及资源调度(Yarn)。
Spark+Hadoop的组合,是现在大数据领域最热门的组合,也是最有前景的组合!
1.png
相关文章
- Spark编程技巧
- Spark数据倾斜解决
- Spark任务写数据到s3,执行时间特别长
- Flink教程(30)- Flink VS Spark[通俗易懂]
- Spark记录
- 借助IBCS虚拟专线优化Apache Spark集群性能
- Spark学习笔记2:RDD编程详解大数据
- Spark 介绍详解大数据
- spark性能调优(二) 彻底解密spark的Hash Shuffle详解大数据
- Spark入门实战系列–3.Spark编程模型(下)–IDEA搭建及实战详解大数据
- Spark入门实战系列–7.Spark Streaming(下)–实时流计算Spark Streaming实战详解大数据
- Spark项目之电商用户行为分析大数据平台之(十二)Spark上下文构建及模拟数据生成详解大数据
- Spark项目之电商用户行为分析大数据平台之(四)离线数据采集详解大数据
- Spark项目之电商用户行为分析大数据平台之(三)大数据集群的搭建详解大数据
- Spark项目之电商用户行为分析大数据平台之(二)CentOS7集群搭建详解大数据
- spark-submit提交方式测试Demo详解大数据
- spark入门之三 spark job提交详解大数据
- 激发火花,Spark整合Redis(spark整合redis)
- 基于Spark实现Redis数据库查询(spark查询redis)
- 使用Spark和Redis提升计算性能(spark和redis)
- Spark在Redis中的火花开启高性能数据处理(spark 写redis)
- 利用Spark解锁Redis发挥新实力(spark与redis)