Spark 1.0.0版本发布
前言
如今Spark终于迈出了里程碑一步,1.0.0标记的版本号出版物Spark1.0时代。1.0.0版本号不仅增加了非常多新特性。而且提供了更好的API支持。Spark SQL作为一个新的组件增加。支持在Spark上存储和操作结构化的数据。已有的标准库比方ML、Streaming和GraphX也得到了非常大程度上的增强。对Spark和Python的接口也变得更稳定。
下面是几个基本的改进点:
融合YARN的安全机制
Hadoop有着自己的安全机制。包含认证和授权。Spark如今能够和Hadoop/YARN的安全模型并存,也就是说Spark能够对任务提交(job submission)进行认证,能够使用HDFS的认证机制进行数据的安全传输,各组件之间也添加了互相认证。
改善了任务提交的流程
这个版本号在非常大程度上增强了Spark应用的提交。Spark启用新的任务提交工具spark-submit tool以便可以通过一个普通进程向任一Spark集群提交应用程序。Spark的UI界面中也添加了历史任务的记录,方便了用户查看已经结束了任务执行情况。
Spark SQL的增加
Spark SQL作为一个新组建添加到1.0.0版本号中,它能够利用Spark进行结构化数据的存储和操作,结构化数据既能够赖在外部结构化数据源(当前支持Hive和Parquet),也能够通过向已有RDD添加schema的方式得到。
Spark SQL提供了方便的调用接口,用户能够通过SQL语句来与Spark代码交互。
当前Spark SQL使用Catalyst优化器来对SQL语句进行优化从而得到更有效的运行方案,而且能够将结果存储到Parquet格式中,在将来Spark SQL还会兼容其它的存储系统。
MLib的改进
这个版本号的MLib添加了对Scala、Java、Python中稀疏特征向量的支持。其主要利用了线性方法、k-means和朴素贝叶斯在存储和计算上的稀疏性。1.0.0的MLib还添加了几个新的算法,包含为分类和回归添加了可扩展的决策树、矩阵算法的分布式实现(包含SVD和PCA)、模型评估函数以及L-BFGS算法。
GraphX和Streaming的改进
GraphX在图载入、边反转和邻接计算方面对通信的要求更低,产生的RDD图更简单,从而在性能方面得到了非常大提升。
Spark Streaming提供了对Flume的支持,在状态流转换方面进行了很多优化,而且可以对长时间执行任务的状态进行自己主动清理。
另外。Spark还对调用接口提供了更好的支持。包含对Java 1.8的支持,对Python很多其它版本号的兼容。使用对外内存进行RDD的cache,对小文件的更好支持等。
后记
非常荣幸从0.7.3版本号就開始熟悉、使用Spark,也非常开心自己介入了Spark开源项目的贡献。1.0.0的release note中已经有了自己的身影。尽管做了仅仅是非常小的贡献。可是还是感到一点点的满足感,未来会继续关注开源社区。
近期会增强对Spark的使用,并開始从架构上源代码级别的分析Spark。
參考:http://spark.apache.org/releases/spark-release-1-0-0.html
声明:
本文为原创。禁止用于不论什么商业用途,转载请注明出处:http://blog.csdn.net/asongoficeandfire/article/details/27725401
相关文章
- Shopify Spark主题模板配置修改
- Spark pool_spark docker
- Spark报错记录:Overloaded method foreachBatch with alternatives
- Spark处理数据倾斜过程记录
- Spark SQL实战(04)-API编程之DataFrame
- Spark SQL实战(08)-整合Hive
- 借助IBCS虚拟专线优化Apache Spark集群性能
- Spark集群基础概念 与 spark架构原理详解大数据
- Spark 介绍详解大数据
- Spark入门实战系列–4.Spark运行架构详解大数据
- Spark入门实战系列–5.Hive(上)–Hive介绍及部署详解大数据
- Spark项目之电商用户行为分析大数据平台之(四)离线数据采集详解大数据
- Spark的核心RDD(Resilient Distributed Datasets弹性分布式数据集)详解大数据
- Spark-Sql源码解析之五 Spark Planner:optimized logical plan –> spark plan详解大数据
- 关于Spark 1.5 版本中Spark自己管理内存而不是由Java管理内存的解释详解大数据
- 深入剖析:MySQL与Spark的数据处理能力与应用场景对比(mysqlspark)
- 作为缓存Spark利用Redis缓冲数据的应用(spark需要redis)
- 基于Spark实现Redis数据库查询(spark查询redis)
- Spark构建实时应用存储分析引擎Redis(spark存储redis)
- 使用Spark和Redis提升计算性能(spark和redis)
- Spark与Redis的联合探索(spark加redis)
- 以Spark精准洞悉Redis潜力(spark分析redis)
- 利用Spark解锁Redis发挥新实力(spark与redis)
- 大疆工程师揭露Spark无人机诞生始末:这是一段漫长而极富工匠精神的旅途