Item embedding 取平均得到 User embedding,是四不像还是四都像
2023-03-31 10:34:50 时间
所谓高维空间的诅咒:在低维空间中是四不像,但随着 Embedding 维度的增加,取平均后的 Item Embedding 会和用户原本的 Embedding 越来越近。所以高维下大概率是“四都像”。
最简单的应用便是:当觉得用户的 User Embedding 不太好时,那可以使用用户最近点击过的 Item Embedding 取平均,从而得到新的 User Embedding。
这个用户的 User Embedding 不太好有多个角度:
- 用户行为太少(冷启、底活),学不好 Embedding;
- 模型产出太慢,User Embedding 学的不够快;
- 模型不太行,捕捉不到用户最近的偏好。
注意:
- Item 和 User 要在同一个隐空间中;
- 可能会太集中于用户短期兴趣,从而产生追打、信息茧房;
最早期有点像 Youtube 2016 年的论文:通过 item embedding 生成 user embedding 的过程。
此外,这里还有一个比较好玩的论文:KDD2020 《PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest》。大概是说:
- 取用户短期点击的 N 条 Item 会导致太集中短期兴趣;
- 考虑用户长期历史的兴趣不会追打,但 Pooling 会损失信息,且可能会导致”四不像“,如下:
其“取长补短”,其思路也很简单:取用户较长时间段内交互过的 Item embedding,聚成若干类,再拿每类的 Embedding 取召回,融合后返回。
至于如何聚类,聚几类,可以去看论文,这里不过多阐述。
相关文章
- 一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解
- 一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解
- 空中换引擎 博时基金数字化转型经验谈
- 如何高效地学习编程语言
- 作为一名阿里巴巴数据分析大牛,送给学弟学妹的经验积分
- 为什么要学习R语言
- Hadoop大数据分析平台的介绍性讨论
- 最全面的Spring学习笔记
- 16个用于数据科学和机器学习的顶级平台
- 给有抱负的数据科学家的六条建议
- 如何做一枚合格的数据产品经理
- 除Kaggle外,还有哪些顶级数据科学竞赛平台
- 一个鲜为人知却可以保护隐私的训练方法:联合学习
- 干货 :送你12个关于数据科学学习的关键提示(附链接)
- 大数据行业有多少种工作岗位,各自的技能需求是什么?
- 中国移动研究院常耀斌:商用大数据平台的研发之路
- 这些数据科学家必备的技能,你拥有哪些?
- 自学成才的开发者有何优势和劣势?
- Gartner报告:正处于数据科学与机器学习工具 “大爆炸”的时代
- Ready Computing借助InterSystems IRIS医疗版为医疗机构提供具有高度互操作性和可扩展性的解决方案