您现在的位置是：首页 > 数据库

当前栏目

MongoDB中MapReduce编程模型使用实例

MongoDB 实例编程使用模型 MapReduce

2023-06-13 09:15:25 时间

注：作者使用的MongoDB为2.4.7版本。

单词计数示例：

插入用于单词计数的数据：

复制代码代码如下:

db.data.insert({sentence:"Considerthefollowingmap-reduceoperationsonacollectionordersthatcontainsdocumentsofthefollowingprototype"})
db.data.insert({sentence:"IgetthefollowingerrorwhenIfollowthecodefoundinthislink"})

图个简洁，数据中没有包含标点符号。在mongoshell写入以下内容：

复制代码代码如下:

varmap=function(){
   split_result=this.sentence.split("");
   for(variinsplit_result){
       varword=split_result[i].replace(/(^\s*)|(\s*$)/g,"").toLowerCase();//去除了单词两边可能的空格，并将单词转换为小写
       if(word.length!=0){
           emit(word,1);
       }
   }
}

varreduce=function(key,values){
returnArray.sum(values);
}

db.data.mapReduce(
   map,
   reduce,
   {out:{inline:1}}
)

db.data.mapReduce的第一和第二个参数分别指定map和reduce，map的输入是集合中的每个文档，通过emit()生成键值对；而reduce则处理键的多个值。

mapReduce的第三个参数指明在内存中进行mapreduce并返回结果，运行结果如下：

复制代码代码如下:
{
       "results":[
               {
                       "_id":"a",
                       "value":1
               },
               {
                       "_id":"code",
                       "value":1
               },
               {
                       "_id":"collection",
                       "value":1
               },
               {
                       "_id":"consider",
                       "value":1
               },
               {
                       "_id":"contains",
                       "value":1
               },
               {
                       "_id":"documents",
                       "value":1
               },
               {
                       "_id":"error",
                       "value":1
               },
               {
                       "_id":"follow",
                       "value":1
               },
               {
                       "_id":"following",
                       "value":3
               },
               {
                       "_id":"found",
                       "value":1
               },
               {
                       "_id":"get",
                       "value":1
               },
               {
                       "_id":"i",
                       "value":2
               },
               {
                       "_id":"in",
                       "value":1
               },
               {
                       "_id":"link",
                       "value":1
               },
               {
                       "_id":"map-reduce",
                       "value":1
               },
               {
                       "_id":"of",
                       "value":1
               },
               {
                       "_id":"on",
                       "value":1
               },
               {
                       "_id":"operations",
                       "value":1
               },
               {
                       "_id":"orders",
                       "value":1
               },
               {
                       "_id":"prototype",
                       "value":1
               },
               {
                       "_id":"that",
                       "value":1
               },
               {
                       "_id":"the",
                       "value":4
               },
               {
                       "_id":"this",
                       "value":1
               },
               {
                       "_id":"when",
                       "value":1
               }
       ],
       "timeMillis":1,
       "counts":{
               "input":2,
               "emit":30,
               "reduce":3,
               "output":24
       },
       "ok":1,
}

results的值是MapReduce的处理结果，timeMillis指明花费的时间；counts中input指明了输入的文档数，emit指明了在map中调用emit的次数，reduce指明了reduce的次数（本例中如果单次次数为1则不需要reduce），output指明了输出的文档数目。

可以看到，键_id不再是自动生成，而是被reduce中的key取代。当然，也可以将结果输入到一个新的collection中，例如：

复制代码代码如下:db.data.mapReduce(map,reduce,{out:"mr_result"})
之后查看mr_result集合中的内容即可：
复制代码代码如下:db.mr_result.find()
也可以使用db.runCommand执行mapreduce任务，这种方法为开发者提供了更多的选项，具体请见资料[1]。资料[2][3][4]提供了关于mapreduce更全面的内容。资料[5]给出了优化mapreduce任务的方法，资料[6]是资料[5]的一篇中文翻译。

应该注意的是，资料[5]中提到使用ScopedThread()创建线程，笔者在GUI工具Robomongo的shell中运行newScopedThread()时候报错：ReferenceError:ScopedThreadisnotdefined(shell):1

不过在mongoshell中可以正常运行：

复制代码代码如下:
>newScopedThread()
SatMar2221:32:36.062Error:needatleastoneargumentatsrc/mongo/shell/utils.js:101

如果使用其他编程语言管理MongoDB，要用到线程时，应该使用该编程语言内置的线程。

关于mongodb实现的mapreduce，个人觉得如果支持多个MR任务平滑过渡就更好了。

猜你喜欢

linux ln 软连接_ln命令建立软链接
Oracle 数据库之间的交互连接（oracle 之间）
MySQL实现三个月分区管理（mysql三个月分区）
长Oracle 自增长查询：简洁而完整（oracle查询自增）
【说站】python如何转移数据库里的数据
远程访问Linux系统：极致便捷的在线体验（在线的linux系统）
MySQL：用它来完善你的数据库管理！（mysqlf）
如何恢复数据库的账号登录名/用户名等
MySQL索引分类及使用介绍（mysql索引有几种）
解读Redis源码，展开深度理解（看懂redis源码）
pycharm怎么设置中文版_如何把pycharm改成中文版
javascript比较两个日期的先后示例代码
SpringSecurity简单入门（基于SpringBoot）
ifttt推送gmail新邮件提醒
经验分享 | 一些个人的edusrc小白经验
系统安卓系统与Linux系统：相融相容的双子曲（安卓系统与linux）
位分配查看Redis集群中槽位分配情况（查看redis集群中槽）
孟德尔随机化之IVW和MR-Egger方法简介
海洋污染严重 1.1万米深海生物竟以塑料为食
Docker驱动的Redis技术实现（dockerredis）
Linux下解决读者写者问题的方法（linux读者写者问题）
解析在main函数之前调用函数以及对设计的作用详解
分享20多个很棒的jQuery文件上传插件或教程

zl程序教程

当前栏目

MongoDB中MapReduce编程模型使用实例

相关文章