您现在的位置是：首页 > 云平台

当前栏目

Spark概述

Spark 概述

2023-06-13 09:17:16 时间

Spark是快速和通用的大规模数据处理技术。

特点：

1. 速度

执行mr作业程序在内存比hadoop(v<3.x)快100倍，磁盘快10倍

Spark有DAG执行引擎，支持离散数据流和内存计算

2.易于使用，支持java scala python R

提供的80多种高级操作用于并行App，可以使用脚本语言进行交互式编程

3.常规性：结合SQL，Streaming，和复杂计算

4.可以到处运行

Spark，是一种通用的大数据计算框架[1]，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLlib用于机器学习，Spark GraphX用于图计算。

Spark主要用于大数据的计算，而Hadoop主要用于大数据的存储（比如HDFS、Hive、HBase等），以及资源调度（Yarn）。

Spark+Hadoop的组合，是现在大数据领域最热门的组合，也是最有前景的组合！

1.png

猜你喜欢

Power BI模拟麦肯锡客流转化漏斗图
MySQL用户授权（GRANT）
万兴喵影四周年发布V6新版功能资源权益全线升级让剪辑更FREE
2014最热门的24个php类库汇总
react基础--3
跟镜像隐患 Say goodbye，看这场 130000 个容器，拉取镜像 18000 次的实战案例
Oracle主键冲突：解决方法与注意事项（oracle主键冲突）
维保二维码的优点及制作流程
Redis实现动态数据配置（redis配置动态数据）
Halcon MapImage 复刻 remap
Linux进程：解读UID的神秘世界（linux进程uid）
SQL Server招标：赢取未来成果！（sqlserver招标）
图学习初探Paddle Graph Learning 构建属于自己的图【系列三】
Android应用程序使用代码签名证书的重要性
Struts之logic标签库详解
发布了！2020年AI人才发展报告，最高补助1000万！
MSSQL视图语句出错：怎么办？（mssql视图语句错误）
被中国收购后的 Opera 被指在海外违规放贷，短信和电话轰炸催收
深入探索：Linux系统与网络管理的关系（linux系统与网络管理）
taskscheduler java_Spring TaskScheduler使用实例解析