zl程序教程

您现在的位置是:首页 >  云平台

当前栏目

Spark概述

Spark 概述
2023-06-13 09:17:16 时间

Spark是快速和通用的大规模数据处理技术。

特点:

1. 速度

执行mr作业程序在内存比hadoop(v<3.x)快100倍,磁盘快10倍

Spark有DAG执行引擎,支持离散数据流和内存计算

2.易于使用,支持java scala python R

提供的80多种高级操作用于并行App,可以使用脚本语言进行交互式编程

3.常规性:结合SQL,Streaming,和复杂计算
4.可以到处运行

Spark,是一种通用的大数据计算框架[1],正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。

Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib用于机器学习,Spark GraphX用于图计算。

Spark主要用于大数据的计算,而Hadoop主要用于大数据的存储(比如HDFS、Hive、HBase等),以及资源调度(Yarn)。

Spark+Hadoop的组合,是现在大数据领域最热门的组合,也是最有前景的组合!

1.png