Hadoop局限性与数据多样性令数据科学家抓狂
企业用户正逐渐将更多注意力集中在创建大数据分析能力身上,而数据科学家则因此而承受着更为沉重的压力。
在Paradigm4(也就是开源计算数据库管理系统SciDB的***)本周发布的一份面向超过一百位数据科学家的调查报告当中,他们发现有71%的受访数据科学家认为随着数据源种类以及数据规模的不断增加、他们的工作难度也随之逐步攀升。
值得注意的是,只有48%的受访者在调查中表示他们曾经在工作当中使用过Hadoop或者Spark,而且76%的受访者认为Hadoop的执行速度太过缓慢、在建立规划时需要投入大量精力或者存在其它严重局限。
“数据源种类的不断增加正迫使数据科学家们寻找处理问题的捷径,否则数据量与财政预算之间的矛盾将变得不可调和,”Paradigm4公司CEO Marilyn Matz表示。“目前对于数据规模的关注掩盖了分析工作当中的真正挑战所在。只有解决对不同类型数据加以利用这一重大难题,我们才有可能释放分析手段当中所蕴藏的巨大潜能。”
即使抛开Hadoop平台周边存在的诸多挑战性因素,其本身也仍然无法令人满意。约有半数受访者在调查中表示(49%),他们发现自己的数据很难与关系型数据库表相适应。59%的受访者指出他们所在的企业已经开始使用复杂的分析机制——包括协方差分析等数学手段、集群化、机器学习、主成分分析与图形操作,而非商务智能报告等“基础分析”手段——对业务数据进行分析。
另有15%的受访者计划在未来一年中开始使用复杂分析机制,16%的受访者则将复杂分析机制的引入规划设定在未来两年内。只有4%的受访者表示他们所在的企业尚无计划使用复杂分析方案。
Paradigm4认为这意味着大数据这一“唾手可得的价值果实”已经开始转化为实际收益,而数据科学家们将需要进一步深入研究、从而***程度提升其附加价值。
“大数据发展进程中由简单向复杂分析的过渡预示着分析机制将逐步走向规模化道路,而这个过程将超越单一服务器内存容量限制、将分散且易于忽略的价值作为关注重点并需要以适当的混合采样频率作为依托——这一切都将成为分析领域的新兴需求,”Paradigm4在报告中写道。“这些复杂分析方法同时也会给数据科学家带来众多不受监管且无从假设的实际处理方案,并最终让数据自身有能力给出结论。”
Paradigm4还认为,Hadoop已经被不切实际地夸大成了一套具有普遍性与颠覆性的大数据解决方案。报告指出,在某些特定复杂分析用例当中,Hadoop根本不能算是可行的解决方案。Paradigm4表示,基础分析已经成为一种“高度并行机制”(也被称为‘数据并行机制’),而复杂分析则并非如此。
所谓高度并行问题可以被拆分成多个独立的子问题且能够并行运作——不同任务之间几乎甚至完全不存在关联性,因此大家不需要一次性访问全部数据内容。这也正是Hadoop MapReduce在处理数据时所遵循的办法。而非高度并行类分析任务,例如众多复杂分析问题,要求一次性使用并共享全部数据内容并在处理过程当中随时进行结果通信。
22%的受访数据科学家在调查中表示,Hadoop与Spark并不适合自己的分析实例。Paradigm4公司还发现,35%的受访数据科学家曾经尝试过Hadoop或者Spark,但最终放弃了将其引入实际业务环境的打算。
Paradigm4在报告中提到的111位美国数据科学家来自由创新研究企业Innovation Enterprise自2014年3月27日到4月23日进行的调查群体。Paradigm4在下面这份图表当中汇总了全部相关调查结果。
原文链接:
相关文章
- 直接在代码里面对list集合进行分页
- .NET Framework 4.5新特性详解
- 大数据的简要介绍
- 大数据的由来
- 高斯混合模型的自然梯度变量推理
- timing-wheel 仿Kafka实现的时间轮算法
- 使用Navicat软件连接自建数据库(Linux系统)
- 那一天,我被Redis主从架构支配的恐惧
- Redis 深入了解键的过期时间
- C#使用委托调用实现用户端等待闪屏
- 基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统
- GRAND | 转录调控网络预测数据库
- JFreeChart API中文文档
- 临床相关突变查询数据库
- TIGER | 人类胰岛基因变化查询数据库
- 视频边缘计算网关EasyNVR在视频整体监控解决方案中的应用分析
- Apache Arrow - 大数据在数据湖后的下一个风向标
- 常见的电商数据指标体系
- AKShare-艺人数据-艺人流量价值
- MySQL中多表联合查询与子查询的这些区别,你可能不知道!