Databricks连城:Spark打造一体化大数据流水线
2023-04-18 14:41:04 时间
2014年7月25日-26日,由51CTO传媒主办的2014 WOT全球软件技术峰会在北京富力万丽酒店召开。秉承专注技术、服务技术人员的理念,自2012年以来,WOT品牌峰会成功举办了三届,积累了大量的技术专家资源,获得了广大IT从业者和技术爱好者的一致认可,成为了业界重要的技术分享交流平台以及人脉拓展平台。
本次会议分为8个技术主题,分别是:数据库技术与应用,互联网架构分析,高效的技术团队,敏捷开发,实时计算与数据分析,移动应用,自动化运维,开源技术。51CTO作为本次峰会的主办方,将全程视频、图文直播报道这场数据的盛宴。
作为实时计算与数据分析专场“干货分享”的讲师, Databricks工程师连城先生为我们带来了主题为《Spark SQL:一体化大数据流水线的重要拼图》的主题演讲。分享了Spark技术在大数据分析中的应用现状及展望。
连城老师目前专注于以Spark为主的大数据分析系统,Spark SQL为Spark提供了原生的SQL关系查询能力,并进一步增强了Spark操纵结构化数据的能力。演讲伊始,连城率先分享了当今大数据的问题以及数据分析流程,通常的做法是在hadoop之上刻画框架。因此所有流程是基于HDFS,所得到的是有效的数据处理结果占比全部数据处理的比例并不高。
基于Spark的统一的大数据分析组件
弹性分布式数据集可以有效地解决这一问题,Spark开源实现高速、兼容性、接口易用、程序精简等优势。
以上是51CTO.com记者从一线为您带来的精彩报道。后续我们还有更加精彩的独家报道,敬请关注。
相关文章
- 一个比 Redis 性能更强的数据库
- matplotlib可视化系列之【颜色】
- vue3下watch的使用
- 基于Echarts实现可视化数据大屏大数据可视化
- 刚刚发现的可视化动态图库ipyvizzu,太好看了
- springboot 多数据源 实例(sybase、mysql数据库)(上)
- 再有人问你分布式事务,把这篇文章砸过去给他
- kafka-消息中间键(springboot集成)
- 京东一面:MySQL 中的 distinct 和 group by 哪个效率更高?问倒一大遍。。
- 3.SpringSecurity+登录功能+jwt校验过滤器+redis配置
- Redis的十六种应用场景
- day03-模型数据
- Echarts图表中formatter的用法
- SpringBoot+MyBatis的动态SQL、使用动态SQL时List传值错误解决方案
- 后端中dto、vo、entity的区别
- cookie中各参数含义
- 若依(RuoYi )权限管理设计
- 你只会用 xxl-job?一款更强大、新一代分布式任务调度框架来了,太强大了!
- 函数式接口
- 【Js】JavaScript数据类型隐式转换