zl程序教程

您现在的位置是:首页 >  其他

当前栏目

《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计

2023-09-27 14:26:47 时间

《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计

9.2.1 案例概述
    本节演示一个网站搜索综合案例:以京东为例,用户登录京东网站,在搜索栏中输入搜索词,然后点击搜索按钮,就能在京东网站搜索用户需要的商品。在搜索栏中输入搜索词时,当用户输入第一个词的时候,京东就能根据用户的点击商品搜索排名,自动在搜索栏下拉列表中显示搜索热词,帮助用户快捷的点击需搜索的商品。在网站搜索综合案例中,将实现和京东搜索类似的功能,根据用户搜索词的日志记录,将用户每天搜索排名前3名的商品列出来,系统后台可以将搜索排名记录持久化到数据库中,提供给web系统或其他应用使用。这里将搜索排名前3名记录保存到磁盘文件系统中,以json格式保存。
网站搜索综合案例代码分2个模块:
(1)数据生成模块:模拟数据的生成可以使用爬虫代码程序,从网络上爬取相应的用户搜索数据,进行ETL数据清理。为简化数据爬取和清洗过程,我们采用模拟生成数据的方式,根据综合案例的数据需求,人工生成模拟数据文件,实现同样类似的功能。
(2)网站搜索排名:找出用户每天搜索排名前3名的产品。


数据生成代码: Spark SQLUserlogsHottestDataManually.java

package com.dt.imf;

import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import ja