推荐系统-Task03离线物料系统的构建
系统 构建 推荐 离线 物料
2023-09-14 09:12:44 时间
新闻推荐系统项目:datawhale-fun-rec: JustForFun小队,Datawhale推荐系统学习项目,仅供个人学习!
如上图所示,离线部分的物料系统流程分为物料爬取、画像构建,用户画像更新与构建。进行离线计算,为每个用户提供一个热门页列表和推荐页列表并缓存,为后续在线部分服务。
离线系统基本内容:
- 新闻物料爬取:主要采用
scrapy
爬虫工具,在每天晚上23点将当天的新闻内容从网页中进行抓取,存入MongoDB的SinaNews
数据库中。 - 物料画像构建:更新当天新闻动态画像,将用户对前一天新闻的交互,包括阅读、点赞和收藏等行为(动态)存入Redis中;对物料画像处理,将新闻静态和动态数据分别存入对应的Redis中。
- 用户画像构建:用户通过前端注册页面,进行用户注册,将用户信息存入MySQL的用户注册信息表(register_user)中;用户通过阅读、点赞及收藏新闻,将用户行为数据存入MySQL的用户阅读信息表(user_read)、用户点赞信息表(user_likes)和用户收藏信息表(user_collections);将当天的新注册用户基本信息及其行为数据构造用户画像,存入MongoDB中的
UserProtrai
集合中。 - 自动化构建画像:将物料画像构建和用户画像构建进行整合,构建整个自动化流程。
项目结构:
物料画像的构建
文件目录
├── material_process
│ ├── log_process.py
│ ├── news_protrait.py
│ ├── news_to_redis.py
│ └── utils.py
├── process_material.py
└── update_redis.py
物料画像构建流程
运行process_material.py
会自动构建物料画像然后存储到数据库中。
- 将今天爬取的数据构造画像存入画像数据库(MongoDB)中,包含:
ews_id,title,raw_key_words,manual_key_words,ctime,content,cate,url,
动态画像初始值(likes,collections,read_num,hot_value)
- 每天都需要将新闻详情更新到
redis
中,并且将前一天的redis
数据删掉 - 用
redis
的动态画像更新mongodb
的画像,将mongodb
中对应的动态画像更新
用户画像数据构建
文件目录
├── process_user.py
├── update_redis.py
└── user_process
├── user_protrail.py
└── user_to_mysql.py
用户画像数据构建流程
运行process_user.py
会自动将用户的曝光数据从redis
落到mysql
中,并且更新用户画像
- 用户曝光数据
user_id,news_list
保存到mongodb
- 每天都需要将当天注册的用户添加到用户画像池中
- 获取用户历史行为的统计特征进行用户画像数据更新(弃用)
├── process_material.py
├── process_user.py
├── update_redis.py
└── user_process
├── user_protrail.py
└── user_to_mysql.py
后续更新!!!
参考资料:我的组队学习
相关文章
- Win7安装VirtualBox提示“Installation failed!Error:系统...
- 利用flume+kafka+storm+mysql构建大数据实时系统
- 轻松构建基于 Serverless 架构的弹性高可用音视频处理系统
- 解锁云原生 AI 技能|在 Kubernetes 上构建机器学习系统
- 6月3日,百度系统出现故障
- 深入分析 iBATIS 框架之系统架构与映射原理
- 目录 1. 管理的门槛1 1.1. 资历作为一个年龄效应1 1.2. 高层次知识结构的构建与提升 系统层面及战略层面的问题时1 2. ,一类是绝对年龄效应,另一类是相对年龄效应。1 2.1.
- 使用Java+SAP云平台+SAP Cloud Connector调用ABAP On-Premise系统里的函数
- android系统构建流程
- 【监控仪表系统】Grafana 中文入门教程 | 构建你的第一个仪表盘
- 用 Python 构建实时股票警报消息系统机器人
- 我用MRS-ClickHouse构建的用户画像系统,让老板拍手称赞
- 基于云服务MRS构建DolphinScheduler2调度系统
- 使用 Python 构建电影推荐系统
- 【阶段三】Python机器学习30篇:机器学习项目实战:智能推荐系统的基本原理与计算相似度的常用方法
- 【数字信号处理】线性时不变系统 LTI ( 判断某个系统是否是 “ 非时变 “ 系统 | 案例一 | 先变换后移位 | 先移位后变换 )
- SCons官网,Scons构建工具手册,SCons构建系统
- 通过tar命令将现有的系统打包成docker容器,用于构建镜像文件 将服务器文件上传到docker 本机制作成docker镜像 本机制作成镜像
- 变化Android系统属性SystemProperties.set("sys.powerctl", "shutdown")关机分析
- 智能威胁分析之图数据构建——关联数据为环境数据图:如资产、资产脆弱性、文件信息、用户信息、IT系统架构信息等 行为数据图:如网络侧检测告警、终端侧检测告警、文件分析日志、应用日志、蜜罐日志、沙箱日志等 情报数据图:各类外部威胁情报 知识数据图:各类知识库(如ATT&CK,CAPEC,CWE)等
- 【2023年第十一届泰迪杯数据挖掘挑战赛】C题:泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题三
- 【2023年第十一届泰迪杯数据挖掘挑战赛】C题:泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题二
- 【监控仪表系统】Grafana 中文入门教程 | 构建你的第一个仪表盘
- 前后端不分离的抽奖系统
- 【故障诊断与隔离】动态系统稀疏故障检测与隔离研究(Matlab代码实现)
- OA系统和ERP有什么区别?
- 高能预警~如何构建IEEE1733协议的演示和验证系统?
- OpenHarmony之轻量系统编译构建流程