Apache Spark 2.0 最快4月亮相 预计效能翻九倍
1月才刚释出1.6版的大数据技术Spark,下一个2.0版本预计4、5月释出,将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame
大数据技术Spark今年1月才刚释出1.6版,下一个2.0版本就已经蓄势待发,预计今年4、5月释出,近日Spark创办人、同时也是 Databricks技术长的Matei Zaharia,更在2016 Spark Summit上,抢先揭露了Spark 2.0即将带来的3大主要特色:包括能大幅提升Spark平台效能的Project Tungsten即将进入第二阶段,提供涵盖完整阶段的程式码产生器,Spark 2.0也将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame。
其中,持续改善Spark应用程式的记忆体及CPU效能的Project Tungsten,是一项帮助Spark大幅提升核心引擎效能的长期专案,目的是要让Spark执行效能达到硬体设备的极限,藉由内建原生记忆体管理机制以及Runtime层级的程式码产生器,来达到接近裸机的效能。
Spark从1.4到1.6版本时,便开始靠 Tungsten来优化Spark的资料处理效能,除了加入二进位的储存方式,以及基础的程式码产生器,也增加了用来描述RDD结构的DataFrame 格式,以及新的资料集API(Dataset API),让Tungsten可被运行在使用者专案中来提升效能表现,也可用于Spark SQL及部分的MLlib上。Spark 1.6新增了基于DataFrame的扩充元件Dataset API,相较于过去的RDD API,Dataset提供更好的记忆体管理效能,及较佳的长时间执行效能。
而Spark2.0版本则将进一步提供涵盖完整阶段的程式码产生器,不仅能移除递迴式呼叫,减少效能损耗,还能进行跨运算子之间的整合,并藉由Parquet及内建快取(Built-in Cache)来优化I/O效能。
预计Spark2.0的效能将翻9倍,从1.6版时每秒可处理的1,400万个栏位,暴增到1亿2,500万,其中的Parquet效能,也将从每秒1,100万提升到每秒9,000万笔。Databricks表示,Spark技术在2015年有非常显著的成长,其贡献者在2015年已经超过 1000人,是2014年的2倍,参与各地区定期聚会的会员数量也从1万多人暴增至6万多人。而Spark 2.0将是下一个重大更新版本,预计今年4、5月释出。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/57577.html
相关文章
- Apache配置详解(最好的APACHE配置教程)
- Apache HttpClient4使用教程
- 部署Apache服务器
- Spark SQL报错:org.apache.spark.sql.catalyst.errors.package$TreeNodeException 排查记录
- 打造消息中台,华为终端云基于 Apache Pulsar 的演进实践
- 放弃 Spring Cloud Gateway!Apache APISIX在「还呗」业务中的技术实践
- Apache报错:无法使用可靠的服务器域名
- window + apache + django + mod_wsgi 一直响应中的解决办法
- apache 配置模拟外网环境开发网站的方法
- Apache ab并发负载压力测试实现方法
- Spark-Sql源码解析之六 PrepareForExecution: spark plan -> executed Plan详解大数据
- Spark-Sql源码解析之五 Spark Planner:optimized logical plan –> spark plan详解大数据
- 解决json结合struts2时,Class org.apache.struts2.json.JSONWriter can not access a member of * 的问题详解编程语言
- Apache Spark 不过时的六大理由
- Centos编译安装 LAMP (apache-2.4.7 + mysql-5.5.35 + php 5.4.8)
- 深入探究:Linux下Apache的应用与优势(linux的apache)
- Apache安装MySQL数据库的指南(apache装mysql)
- 作为缓存Spark利用Redis缓冲数据的应用(spark需要redis)
- 激发火花,Spark整合Redis(spark整合redis)
- Spark与Redis的联合探索(spark加redis)
- 极速前进基于Spark的Redis开发现代化(spark开发redis)
- Spark与Redis的比较新趋势的精彩发现(spark对比redis)
- Apache与IIS的优劣对比点点评分析
- linux下安装apache与php;Apache+PHP+MySQL配置攻略
- Apache与Tomcat服务器整合的基本配置方法及概要说明
- Wins2003系统中Apache性能优化方法
- Apache防DDOS模块mod_evasive安装和配置方法详解
- apache虚拟主机的配置指南
- Linux+php+apache+oracle环境搭建之CentOS下安装Apache