您现在的位置是：首页 > 其他

当前栏目

如何用Spark解决一些经典MapReduce问题？

ap Spark

2023-03-14 10:13:30 时间

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。同时spark也让传统的map reduce job开发变得更加简单快捷。本文将简单介绍几个经典hadoop的mr按理用spark实现，来让大家熟悉spark的开发。

***值最小值

求***值最小值一直是Hadoop的经典案例，我们用Spark来实现一下，借此感受一下spark中mr的思想和实现方式。话不多说直接上code：

预期结果：

max: 1001min: 2

思路和hadoop中的mr类似，设定一个key，value为需要求***与最小值的集合，然后再groupBykey聚合在一起处理。第二个方法就更简单，性能也更好。

平均值问题

求每个key对应的平均值是常见的案例，在spark中处理类似问题常常会用到combineByKey这个函数，详细介绍请google一下用法，下面看代码：

我们让每个partiton先求出单个partition内各个key对应的所有整数的和 sum以及个数count，然后返回一个pair(sum, count)在shuffle后累加各个key对应的所有sum和count,再相除得到均值.

TopN问题

Top n问题同样也是hadoop种体现mr思想的经典案例,那么在spark中如何方便快捷的解决呢：

思路很简单，把数据groupBykey以后按key形成分组然后取每个分组***的2个。预期结果：

以上简单介绍了一下hadoop中常见的3个案例在spark中的实现。如果读者们已经接触过或者写过一些hadoop的mapreduce job，那么会不会觉得在spark中写起来方便快捷很多呢。

猜你喜欢

理解Python装饰器看这一篇就够了
大数据开发和大数据分析有什么不同？
大数据改变了网络主机市场的两端
Python中Requests库的高级用法
用C语言写面向的对象是一种什么样的体验
数据分析与可视化：谁是安全圈的吃鸡第一人
2017年3月编程语言排行榜：Swift首次进入前十
JVM热点技术：Java类的加载机制
大数据分析建模及其应用建议
16个用于数据科学和机器学习的顶级平台
Java核心技术点之注解
像数据科学家一样思考：12步指南（上）
人生苦短，我用这七款Python IDE
JavaScript 与 Java、PHP 的比较
大数据和人工智能的关系，超全解析
聊聊Clean Code的编码、重构技巧
给有抱负的数据科学家的六条建议
聊聊Java的泛型及实现
如何做一枚合格的数据产品经理
谈谈Spring boot 启动层面的开发

zl程序教程

当前栏目

如何用Spark解决一些经典MapReduce问题？

相关文章