大数据学习——有两个海量日志文件存储在hdfs
2023-09-11 14:18:37 时间
有两个海量日志文件存储在hdfs上,
其中登陆日志格式:user,ip,time,oper(枚举值:1为上线,2为下线);
访问之日格式为:ip,time,url,假设登陆日志中上下线信息完整,切同一上下线时间段内是用的ip唯一,
计算访问日志中独立user数量最多的前10个url,用MapReduce实现。
提示:
1、要统计前10,需要两个步骤,第一个步骤实现join,统计出每个url对应的独立用户数,第二步骤求出top10
2、两个大表join,用同一job多输入
3、要根据ip字段join,所以要根据ip分区
4、求top10
答案在此:
https://www.cnblogs.com/feifeicui/p/10247352.html
相关文章
- Linux系统下如何运行.sh文件
- DirectX11 学习笔记10 - 用文件存储顶点布局
- 如何使用sct文件、icf文件来定位不同的内存存储变量(cortex-m3平台)keil+iar
- 130 Kafka文件存储基本结构
- cmd下文件md5查看插件
- 《SAS 统计分析与应用从入门到精通(第二版)》一1.4 SAS系统的文件管理
- Android文件存储使用参考
- 块存储、文件存储、对象存储差别
- 《深入理解大数据:大数据处理与编程实践》一一3.3 HDFS文件存储组织与读写
- python两种不同的文件流读写
- 文件是什么--是对信息载体的形式抽象
- 【微信小程序】04-公共文件引入
- PHP aws-sdk-php文件存储的实现与应用
- #include"*.c" 文件问题
- 【AGC】云存储如何上传文件?是否可以自行开通?云存储的相关问题,来这里看看!
- 安卓使用WebView下载文件,安卓实现软件升级功能
- Unity 中存储数据到JSON本地文件
- 嘿,虚拟SAN——欢迎这位新的虚拟文件存储兄弟
- 高性能文件缓存key-value存储—Redis