您现在的位置是：首页 > 云平台

当前栏目

2016年杭州第四次spark meetup见闻

Spark 2016 杭州 MeetUp 第四次

2023-09-14 09:03:12 时间

spark发展非常快，2.0都快要发布了。在不同的城市都会有一些交流聚会，杭州有很多互联网企业，创业的氛围也非常好。大家每隔一段时间的交流还是必须的。不过最好还是时间上密集点，最好重点在于大家讨论，互相交流。
这次是挖财网的时金魁同学主办的，感谢时金魁同学，演讲稿下载链接
screenshot

期待2.0发布，最近E-MapReduce团队在做benchmark，找时间单独对比下1.6与2.0之间的性能差距。

有4场次的分享，分别为：

《Spark 2.0介绍》来自七牛的陈超
大致介绍了spark2.0的一些新的功能，包括Dataset、Structured Streaming、Tungsten Phase2。记得最清楚就是陈超说：目前Structured Streaming还不成熟，吹了很多牛，大家得等到2.x版本吧，不管怎么搞还是基于batch，想跟flink一样估计到3.0，不过hadoop 3.0还没有发布，那spark也不知道啥时间了。

笔者路上堵车了，所以也只听到了一半。PS：陈超别怪我写的不多，下面的图是借过来的。
现在网上分析2.0的文章比较多，笔者就不细讲了。
screenshot

《spark mllib大数据实践和优化》来自阿里念钧
screenshot

这个笔者是剧中人，还是比较熟悉的，经历过太多辛酸苦辣。念钧同学讲的比较好，从13年到16年虽然几度变化，但是还是在mllib上摸索。此次讲了阿里mllib从13年到16年的一些事情，比如：机器学习算法平台的建设（可以拖的图形化界面，把算法包装好），在mllib踩过的一些坑（基本是数据量大以后的事情），MPI跟mllib的对比（mpi性能高，灵活性稳定性不够）。目前大数据方面，会有越来越多人从事大数据分析、数据挖掘上，这是一个热点。

《Spark+CarbonData(New File Format For Faster Data Analysis》来自华为陈亮，spark作为分析引擎可以基于CarbonData获取更快的查询性能。CarbonData是一个新的存储格式，跟parquet、orcfile比较类似。大致就是在列式存储的基础上加上编码、倒排等index的技术。看了陈亮的演示，在100w条数据下，CarbonData比parquet快数倍的。不过现场有很多的问题，比如：写的性能怎么样？对于中文支持怎么样？cpu等有没有额外的开销？目前没有这方面的数据，最近进入了apache孵化器，期待后续有更加详细的数据。架构在于平衡，有利必有弊的。CarbonData 确实是一个很好的尝试，把传统DB的思想用来做大数据的数据存储格式也是很好的。详细的信息见：CarbonData
screenshot

《Spark Streaming简要图解》来自挖财网时金魁（现场照图片，比较可惜，补一张pdf里面封面，请时金魁见谅），介绍了挖财网用了spark+mesos+kafka+elasticsearch+kibana+Hbase，提到了Hbase作为数据存储服务扛不住sparkStreaming的压力，后开启了Hbase的反压，选择了mesos原因是在做隔离方面更好及Marathon对长服务支持更好，kibana对于展示metric比较好，最后图解了 Spark Streaming，看源码这样画一个图还是很方便理解的，比较赞成说代码写的比较乱，这快笔者也看过。
screenshot

Apache Spark Meetup China 第1期最全资料下载活动时间：2018年12月16日13:30-17:00 活动地点：杭州市余杭区文一西路998号未来科技城海创园4幢801C 主办单位：阿里云、袋鼠云、云栖社区主题介绍：主题一、Spark优化实践-13：30 - 14：30阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作，包括SmartShuffle、file skip index等。
HADOOP MapReduce 处理 Spark 抽取的 Hive 数据【解决方案一】今天咱先说问题，经过几天测试题的练习，我们有从某题库中找到了新题型，并且成功把我们干趴下，昨天今天就干了一件事，站起来。 java mapeduce 清洗 hive 中的数据，清晰之后将driver代码进行截图提交。
Storm与Spark、Hadoop三种框架对比 Storm与Spark、Hadoop这三种框架，各有各的优点，每个框架都有自己的最佳应用场景。所以，在不同的应用场景下，应该选择不同的框架。
大数据Spark企业级实战与Hadoop实战&PDF和PPT 今天给大家分享的是《大数据Spark企业级实战》与《Hadoop实战》《大数据处理系统·Hadoop源代码情景分析》《50个大厂大数据算法教程》等销量排行前10名的大数据技术书籍（文末领取PDF版）。这些书籍具有以下几个优点：易读、实践性强，对解决工作中遇到的业务问题具有一定启发性。
封神封神 09年加入阿里巴巴，阿里云高级技术专家、架构师；专注在大数据、分布式数据库领域，10年分布式研发经验；参与研发万台大数据Hadoop离线计算平台；负责研发多款阿里云一级大数据及数据库产品，如云Cassandra

猜你喜欢

flutter: 图片的fit取值(flutter 3.7.0)
用GDB调试程序（一）
【算法题】输入一维数组array和n，找出和值为n的任意两个元素
Python入门教程超详细1小时学会Python
【云栖大会】畅聊阿里云数加平台
Swift字典
[Immutable.js] Using fromJS() to Convert Plain JavaScript Objects into Immutable Data
TDengine在雷达台站运维管理系统中的落地实践
IP核之RAM
【3-3】石子合并问题
java中集合类中Collection接口中的Map接口的常用方法熟悉
win8下IE10的鼠标mouse事件响应错误BUG
Docker 用法总结之:管理工具 shipyard 的具体使用指南
bcrypt加密password BCrypt对密码进行加密及密码验证
Kafka auto.offset.reset值详解
从gopath到go mod的一次尝试

相关主题

Spark集群部署
Spark机器学习
Spark源码分析
Spark介绍
Spark记录
spark
Spark的使用
Spark之SparkSql
3、spark Wordcount
Spark RDD 操作
Spark编译
Spark 2.0
008-spark 的调度
Spark |04 SparkSQL

zl程序教程

当前栏目

2016年杭州第四次spark meetup见闻

相关文章