大数据基础之词频统计Word Count
2023-09-14 09:00:08 时间
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多少种:
1 Linux单机处理
egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10
2 Scala单机处理(Array)
line.split(" ").map((_, 1)).groupBy(_._1).map(_._2.reduce((v1, v2) => (v1._1, v1._2 + v2._2))).toArray.sortWith(_._2 > _._2).foreach(println)
3 Spark分布式处理(Scala)
val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) sc.textFile("test_word.log").flatMap(_.split("\\s+")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false).take(10).foreach(println)
4 Flink分布式处理(Scala)
val env = ExecutionEnvironment.getExecutionEnvironment
env.readTextFile("test_word.log").flatMap(_.toLowerCase.split("\\s+").map((_, 1)).groupBy(0).sum(1).sortPartition(1, Order.DESCENDING).first(10).print
5 MongoDB
>db.table_name.mapReduce(function(){ emit(this.column,1);}, function(key, values){return Array.sum(values);}, {out:"post_total"})
6 Hive
select word, count(1) cnt
from test_word lateral view explode(split(line, ' ')) words as word
group by word
order by cnt desc limit 10
7 Hadoop示例
hadoop jar /path/hadoop-2.6.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.1.jar wordcount /tmp/wordcount/input /tmp/wordcount/output
附:测试文件test_word.log内容如下:
hello world
hello www
输出如下:
2 hello
1 world
1 www
相关文章
- 上线新系统后,统计从旧系统切换到新系统的数据
- [代码质量] Git统计本次提交新增代码行数,建议每个评审commit新增行数小于400行
- Java实现 蓝桥杯VIP 算法提高 不同单词个数统计
- Java实现 蓝桥杯VIP 算法训练 数的统计
- 根据马甲、应用商店、统计每天的注册量,要求可以根据选择马甲和app,马甲和appstrore和user_login不同表问题
- SPSS统计基础-均值功能的使用
- CDA考试 ▏2017 CDA L1备考资源习题详解-统计基础部分
- SPSS统计基础-均值功能的使用
- SPSS统计基础-均值功能的使用
- 日志统计(排序+滑动窗口)
- Leetcode.2183 统计可以被 K 整除的下标对数目
- 【基础入门题034】统计中文字符数
- 【基础入门题033】统计字符数
- C/C++基础讲解(八十一)之常见试题解答篇(字符串逆置/SIX-NINE问题/单词个数统计)
- Grafana 统计面板
- 【原创】开源Math.NET基础数学类库使用(10)C#进行基本数据统计
- 数学建模学习(2):数据统计与分析之偏度,峰度
- redis_12 _ 有一亿个keys要统计,应该用哪种集合
- 统计基础篇之十二:怎么理解正态分布(一)
- 统计单词数