您现在的位置是：首页 > 云平台

当前栏目

spark初识

Spark 初识

2023-09-11 14:21:41 时间

spark特性：

　　提供了java scala python 和R的api支持。

　　在生产环境上扩展超过8000个节点。

　　可以在内存中缓存交互中间数据的能力：提炼一个工作集合，缓存它，反复查询。

　　低级别的水平伸缩的数据检索可以通过scala或者python 命令行进行交互。

　　高级别的流处理库spark streaming可以处理流数据。

　　通过spark sql支持结构化的关系查询处理（sql）。

　　机器学习和图形处理的高级别库。

spark工程构成：

1. spark核心及RRDs(Resilient Distributed Datasets)

　　spark核心是整个工程的基础，它提供了分布式任务的分发、调度和基本的IO功能。最基本的抽象就是RRDs，一个跨机器的分区数据的逻辑集合。RDDs可以由引用的外部存储系统创建，或者在已存在的RDDs上应用粗粒度变换(如map，filter，reduce，join等)。

　　RDDs抽象接口由特定语言java、python、scala 的api接口暴露，如在本地数据集合一样。这简化了编程的复杂性，因为应用操作RDDs的方式和操作本地数据集合类似。

2. spark sql

　　spark sql组件位于spark核心之上，它引入了名称为SchemaRDD的新的数据抽象。SchemaRDD支持结构化和半结构化数据。spark sql 提供了基于特定语言scala，java，python操作schemaRDDs。它也提供了通过命令行和odbc/jdbc服务器来操作sql语句的支持。从Spark 1.3开始，SchemaRDD命名为DataFrame。

3. spark streaming

　　spark streaming利用spark核心的快速调度能力来执行流分析。它小批量采集数据并且对这些小批量数据执行RDD转换。这种设计使在一台引擎中，批量分析的应用程序代码也可以用在流分析的批量分析中。

4. MLLIb机器学习库

　　MLLib是一个位于spark之上的分布式系统学习框架，因其基于分布式内存的spark架构，它的速度达到相同版本的基于磁盘的apache Mahout的9倍，扩展性甚至优于Vowpal Wabbit。它实现了很多通用机器学习和分析算法来简化大规模机器学习管道，包括：

summary statistics, correlations, stratified sampling, hypothesis testing, random data generation；
classification and regression: SVMs, logistic regression, linear regression, decision trees, naive Bayes；
collaborative filtering: alternating least squares (ALS)；
clustering: k-means, Latent Dirichlet Allocation (LDA)；
dimensionality reduction: singular value decomposition (SVD), principal component analysis (PCA)；
feature extraction and transformation；
optimization primitives: stochastic gradient descent, limited-memory BFGS (L-BFGS)；

5. GraphX

　　GraphX是一个位于spark之上的分布式图形处理框架。

spark源码结构

整体上Spark分为以下几个主要的子模块:

deploy: deply模块包括Master，Work和Client，参见architecture图的最上部分。deploy主要负责启动和调度用户实现的Spark application并且分配资源给用户 application，类似于Hadoop YARN框架。
scheduler: scheduler主要负责调度用户application内的tasks，根据部署方式的不同Spark实现了多种不同的scheduler，包括LocalScheduler，ClusterScheduler等。
rdd: rdd类似于一个分布式的数据集，用户可以根据rdd所提供的api进行数据集的操作，rdd模块是用户交互的主要模块。
storage: storage模块主要负责数据集，也就是rdd的存取。根据设定的不同，数据可以保存在内存、磁盘或是两者。Spark与Hadoop MapReduce最大的不同在于MapReduce 将数据保存在HDFS上，而Spark则由自己的存储系统。

参考文献

【1】https://en.wikipedia.org/wiki/Apache_Spark

【2】http://jerryshao.me/architecture/2013/03/29/spark-overview/

猜你喜欢

深度学习中常用的优化器简介
非计算机类专业毕业生五年程序员职业生涯的回顾和思考
POJ 3468 A Simple Problem with Integers
康师傅
【虚幻】武器插槽：拾取武器
【Java】不可不说的Java“锁”事
Spring AOP
常用开发工具之 SQLite 数据库与 Navicat for SQLite 的下载、安装与简单使用说明
ThreadLocal（史上最全）
《C++面向对象高效编程（第2版）》——3.16 从函数中返回引用
【Unity3D基础2-14】Unity3D UI系统之OnGUI
函数防抖VS函数节流
标准的json格式都是键值对的方式
《编译与反编译技术》—第3章3.6本章小结
PostgreSQL基础备份_增量备份与任意点恢复
SwiftUI Swift 问答之有没有办法为Slider定义离散步骤？
Android中使用ContentProvider进行跨进程方法调用
【Java】Java Platform

相关主题

Spark机器学习
178 Spark入门
Spark介绍
初窥Spark
spark
【Spark】
spark 安装
Spark MLlib
Spark学习
Spark相关
Spark RDD 操作
spark dataset
spark source

zl程序教程

当前栏目

spark初识

相关文章