您现在的位置是：首页 > 工具

当前栏目

大数据运维---MapReduce学习

学习数据运维 --- MapReduce

2023-09-14 08:59:28 时间

一、应用场景

MapReduce支持下列场景：

搜索：网页爬取、倒排索引、PageRank。
Web访问日志分析：
- 分析和挖掘用户在Web上的访问、购物行为特征，实现个性化推荐。
- 分析用户访问行为。
文本统计分析：
- 热门小说的字数统计（WordCount）、词频TFIDF分析。
- 学术论文、专利文献的引用分析和统计。
- 维基百科数据分析。
海量数据挖掘：非结构化数据、时空数据和图像数据挖掘。
机器学习：监督学习、无监督学习和分类算法（例如决策树、SVM）。
自然语言处理：
- 基于大数据的训练和预测。
- 基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。
广告推荐：用户单击（CTR）和购买行为（CVR）预测。

二、MapReduce流程说明

　　MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先执行Map阶段，再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现，但要符合MapReduce框架的约定。MapReuce处理数据的完整流程如下：

输入数据：对文本进行分片，将每片内的数据作为单个Map Worker的输入。分片完毕后，多个Map Worker便可以同时工作。
在正式执行Map前，需要将输入数据进行分片。所谓分片，就是将输入数据切分为大小相等的数据块，每一块作为单个Map Worker的输入被处理，以便于多个Map Worker同时工作。
Map阶段：每个Map Worker在读入各自的数据后，进行计算处理，最终输出给Reduce。Map Worker在输出数据时，需要为每一条输出数据指定一个Key，这个Key值决定了这条数据将会被发送给哪一个Reduce Worker。Key值和Reduce Worker是多对一的关系，具有相同Key的数据会被发送给同一个Reduce Worker，单个Reduce Worker有可能会接收到多个Key值的数据。
在进入Reduce阶段之前，MapReduce框架会对数据按照Key值排序，使得具有相同Key的数据彼此相邻。如果您指定了合并操作（Combiner），框架会调用Combiner，将具有相同Key的数据进行聚合。Combiner的逻辑可以由您自定义实现。与经典的MapReduce框架协议不同，在MaxCompute中，Combiner的输入、输出的参数必须与Reduce保持一致，这部分的处理通常也叫做洗牌（Shuffle）。
Reduce阶段：进入Reduce阶段，相同Key的数据会传送至同一个Reduce Worker。同一个Reduce Worker会接收来自多个Map Worker的数据。每个Reduce Worker会对Key相同的多个数据进行Reduce操作。最后，一个Key的多条数据经过Reduce的作用后，将变成一个值。
输出结果数据。

　　下文将以WordCount为例，为您介绍MaxCompute MapReduce各个阶段的概念。

　　假设存在一个文本a.txt，文本内每行是一个数字，您要统计每个数字出现的次数。文本内的数字称为Word，数字出现的次数称为Count。如果MaxCompute MapReduce完成这一功能，需要经历以下流程，图示如下。

　　操作步骤

输入数据：对文本进行分片，将每片内的数据作为单个Map Worker的输入。
Map阶段：Map处理输入，每获取一个数字，将数字的Count设置为1，并将此<Word, Count>对输出，此时以Word作为输出数据的Key。
Shuffle>合并排序：在Shuffle阶段前期，首先对每个Map Worker的输出，按照Key值（即Word值）进行排序。排序后进行Combiner操作，即将Key值（Word值）相同的Count累加，构成一个新的<Word, Count>对。此过程被称为合并排序。
Shuffle>分配Reduce：在Shuffle阶段后期，数据被发送到Reduce端。Reduce Worker收到数据后依赖Key值再次对数据排序。
Reduce阶段：每个Reduce Worker对数据进行处理时，采用与Combiner相同的逻辑，将Key值（Word值）相同的Count累加，得到输出结果。
输出结果数据。

三、设计构思

　　1、拓扑图

猜你喜欢

JS中实现页面跳转和刷新方法总结
Atitit easyui翻页组件与vue的集成解决方案attilax总结
Go工具和调试详解
基于Postman的API自动化测试（四）
tcp/ip基础
Windows10上帝模式
在查找预编译头时遇到意外的文件结尾。是否忘记了向源中添加“#include "StdAfx.h"”?
Osg-Osg利用NodeCallback实现对象旋转(Qt5.14.2+osgE3.6.5+win10)-No27-NodeCallback
nrf52832 ble主从一体实现介绍
SAP UI5应用里的页面路由处理
软件架构师是什么玩意儿？
Ubuntu软件仓库源类型：官方源、第三方源、本地源
Android 下拉刷新组件SwipeToLoadLayout源码解析
linux 定时任务- 清理文件
❤️C++ Switch 语句教程❤️
Pormetheus k8s服务发现配置详解
Trace和Debug主要用法
JVM深入学习笔记一：Java 编译器初探
Android 10.0 修改Toast的显示时间
零基础可以学习低代码吗
派生类构造函数创建顺序(阿里笔试题)

相关主题

大数据学习
SWIFT学习笔记02
JSON学习

zl程序教程

当前栏目

大数据运维---MapReduce学习

相关文章