您现在的位置是：首页 > 其他

当前栏目

大数据基础之词频统计Word Count

统计基础数据 word count 词频

2023-09-14 09:00:08 时间

对文件进行词频统计，是一个大数据领域的hello word级别的应用，来看下实现有多少种：

1 Linux单机处理

egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10

2 Scala单机处理（Array）

line.split(" ").map((_, 1)).groupBy(_._1).map(_._2.reduce((v1, v2) => (v1._1, v1._2 + v2._2))).toArray.sortWith(_._2 > _._2).foreach(println)

3 Spark分布式处理（Scala）

val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
sc.textFile("test_word.log").flatMap(_.split("\\s+")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false).take(10).foreach(println)

4 Flink分布式处理（Scala）

    val env = ExecutionEnvironment.getExecutionEnvironment
    env.readTextFile("test_word.log").flatMap(_.toLowerCase.split("\\s+").map((_, 1)).groupBy(0).sum(1).sortPartition(1, Order.DESCENDING).first(10).print

5 MongoDB

>db.table_name.mapReduce(function(){ emit(this.column,1);}, function(key, values){return Array.sum(values);}, {out:"post_total"})

6 Hive

select word, count(1) cnt

from test_word lateral view explode(split(line, ' ')) words as word

group by word

order by cnt desc limit 10

7 Hadoop示例

hadoop jar /path/hadoop-2.6.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.1.jar wordcount /tmp/wordcount/input /tmp/wordcount/output

附：测试文件test_word.log内容如下：

hello world
hello www

输出如下：

2 hello
1 world
1 www

猜你喜欢

Macos Clash如何设置动态IP(负载均衡)
ORA-08342: sropen: failed to open a redo server connection ORACLE 报错故障修复远程处理
逐步搭建企业级Oracle EBS应用平台（oracle ebs搭建）
如何在Oracle 10中创建新的服务（oracle10新建服务）
「Linux 5系统：全新体验，全新下载」（linux5下载）
jquery自定义函数的多种方法
SpringBoot-基础篇
Linux下增加Zip文件的实现方法（linux给zip加文件）
MySQL Error number: 3951; Symbol: ER_DA_UDF_INVALID_ARGUMENT_TO_SET_CHARSET; SQLSTATE: HY000 报错故障修复远程处理
Linux下快速查询外网IP地址（linux 外网ip查询）
C#多线程调试
鸿星尔克总裁回应5000万捐赠质疑：履行承诺、不要神话
Linux的文件系统类型「建议收藏」
微信 for Android v7.0.15 Google Play 正式版
Oracle 触发器的分类及使用技巧（oracle触发器类型）
WPJAM Basic 内置的文章列表函数

相关主题

百度统计
成绩统计
P1567 统计天数
成绩统计.
sql server 统计信息
代码行数统计
Redis 统计

zl程序教程