您现在的位置是：首页 > 云平台

当前栏目

Spark 1.0.0版本发布

Spark 版本发布 1.0

2023-09-14 09:08:02 时间

前言

如今Spark终于迈出了里程碑一步，1.0.0标记的版本号出版物Spark1.0时代。1.0.0版本号不仅增加了非常多新特性。而且提供了更好的API支持。Spark SQL作为一个新的组件增加。支持在Spark上存储和操作结构化的数据。已有的标准库比方ML、Streaming和GraphX也得到了非常大程度上的增强。对Spark和Python的接口也变得更稳定。

下面是几个基本的改进点：

融合YARN的安全机制

Hadoop有着自己的安全机制。包含认证和授权。Spark如今能够和Hadoop/YARN的安全模型并存，也就是说Spark能够对任务提交（job submission）进行认证，能够使用HDFS的认证机制进行数据的安全传输，各组件之间也添加了互相认证。

改善了任务提交的流程

这个版本号在非常大程度上增强了Spark应用的提交。Spark启用新的任务提交工具spark-submit tool以便可以通过一个普通进程向任一Spark集群提交应用程序。Spark的UI界面中也添加了历史任务的记录，方便了用户查看已经结束了任务执行情况。

Spark SQL的增加

Spark SQL作为一个新组建添加到1.0.0版本号中，它能够利用Spark进行结构化数据的存储和操作，结构化数据既能够赖在外部结构化数据源（当前支持Hive和Parquet），也能够通过向已有RDD添加schema的方式得到。

Spark SQL提供了方便的调用接口，用户能够通过SQL语句来与Spark代码交互。

当前Spark SQL使用Catalyst优化器来对SQL语句进行优化从而得到更有效的运行方案，而且能够将结果存储到Parquet格式中，在将来Spark SQL还会兼容其它的存储系统。

MLib的改进

这个版本号的MLib添加了对Scala、Java、Python中稀疏特征向量的支持。其主要利用了线性方法、k-means和朴素贝叶斯在存储和计算上的稀疏性。1.0.0的MLib还添加了几个新的算法，包含为分类和回归添加了可扩展的决策树、矩阵算法的分布式实现（包含SVD和PCA）、模型评估函数以及L-BFGS算法。

GraphX和Streaming的改进

GraphX在图载入、边反转和邻接计算方面对通信的要求更低，产生的RDD图更简单，从而在性能方面得到了非常大提升。

Spark Streaming提供了对Flume的支持，在状态流转换方面进行了很多优化，而且可以对长时间执行任务的状态进行自己主动清理。

另外。Spark还对调用接口提供了更好的支持。包含对Java 1.8的支持，对Python很多其它版本号的兼容。使用对外内存进行RDD的cache，对小文件的更好支持等。

后记

非常荣幸从0.7.3版本号就開始熟悉、使用Spark，也非常开心自己介入了Spark开源项目的贡献。1.0.0的release note中已经有了自己的身影。尽管做了仅仅是非常小的贡献。可是还是感到一点点的满足感，未来会继续关注开源社区。

近期会增强对Spark的使用，并開始从架构上源代码级别的分析Spark。

參考：http://spark.apache.org/releases/spark-release-1-0-0.html

声明：

本文为原创。禁止用于不论什么商业用途，转载请注明出处：http://blog.csdn.net/asongoficeandfire/article/details/27725401

猜你喜欢

Clickhouse建表语法、视图语法、数据表DDL（数据定义语言）、数据DML（数据操作语言）
[转]Linux下网络常用命令和工具
Hyper-V教程网络设置，解决虚拟机上网问题
sql基础--怎样去除重复的行（去重）
[原创]汇编初学者问题合集
Rust语言——无虚拟机、无垃圾收集器、无运行时、无空指针/野指针/内存越界/缓冲区溢出/段错误、无数据竞争
泛函编程（6）－数据结构－List基础
PAT 1051 Pop Sequence[栈][难]
【CSS】CSS 精灵技术 Sprite ( 精灵技术需求 | CSS 精灵技术简介 | 代码示例 )
Powerdesigner15 逆向工程
Ubuntu如何开启root账户登录
【路径规划】一种越野环境下车辆驾驶风险规避运动规划算法（Matlab代码实现）
jQuery-DesktopGrid
误删除Ubuntu 14桌面文件夹“~/桌面”，如何恢复？
[Html5] HTML5 开发手机应用
自定义Java annotation及解析和使用
Myeclipse--jBPM4.3插件
hdu-2814-Interesting Fibonacci-斐波那契周期节
Java实现 LeetCode 面试题 01.07. 旋转矩阵（按照xy轴转+翻转）
Springmvc入门案例（1）

相关主题

Spark 数据倾斜
Spark-SparkSql
Spark基础
spark:学习一
spark调优
spark RDD
Spark记录
spark安装
Spark 之WordCount
7. Spark SQL
spark环境搭建
spark-sql
Spark分区
Spark编程模型
Spark 总结2
Spark的编译
spark source
008-spark 的调度

zl程序教程