助人就是助己:IBM宣布大规模资助开源大数据项目Spark
本周一,IBM宣布将对开源实时大数据分析项目Apache Spark进行大规模资助,蓝色巨人宣称,其资助的力度之大相当于每年数亿美元的投入。
Hadoop技术出自Google、Yahoo这些互联网公司,主要是为了对规模庞大的各类数据进行处理和分析。不过近年来随着大数据应用的流行,越来越多的公司也希望自己具备类似的能力,这使得Hadoop逐步进入了主流。Hadoop以及相关的分发企业如Cloudera, Hortonworks等也成为了大数据领域的投资热点。
Spark同样也提供大数据处理与分析能力。如果说Hadoop胜在规模的话,那么Spark就胜在速度。这项由2年前UC Berkeley AMP实验室开发的技术将中间输出结果保存在内存而不是分布式文件系统中,从而可以提供实时的数据分析能力。与Hadoop获得的资助相比,对Spark的支持还很不够。
正是在此背景下IBM宣布了对Spark的大规模资助。蓝色巨人将投入超过3500名开发者到Spark相关项目,为项目提供机器学习技术,并将Spark嵌入到IBM的数据分析和商用软件中,同时还会把Spark作为服务在它的Bluemix开发平台上提供出来。为了鼓励基于Spark的创新,IBM还将在旧金山设立一个Spark技术中心。IBM还将把自己的一个研究项目SystemML开源。这个项目是利用机器学习技术去识别数据模式,而它正是在Spark基础上开发的。
IBM还计划与UC Berkeley的AMPLab、DataCamp、Galvanize以及Big Data University等学术及教育组织合作提供Spark教育课程,目标是培养100万名数据工程师和数据科学家。
IBM的大规模资助令人瞩目。回顾过去,正是由于IBM的出手才让若干关键技术得到了普及,比如说1980年代IBM对PC的投入,2000年代对Linux的投入均加速了相关技术成为主流的进程。
当然,对于IBM来说,对Spark的大规模投入实际上也在帮助它自己。此举不仅能强化自己在大数据领域的地位,同时也能吸引更多开发者加盟它的生态体系,帮助IBM更快更好地解决其业务问题。
而放眼更大的环境,开源化已成不可逆转的趋势。技术巨头比以往任何时候都更加热情地涌入到这一潮流当中。比方说Google开源了自己最大的秘密之一,Facebook更是几乎将自己变成了一所开源实验室。因为这些巨头明白,如果不拥抱开源,也许就会被开源消灭。
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击