您现在的位置是：首页 > IT要闻

当前栏目

Item embedding 取平均得到 User embedding，是四不像还是四都像

论文

2023-03-31 10:34:50 时间

所谓高维空间的诅咒：在低维空间中是四不像，但随着 Embedding 维度的增加，取平均后的 Item Embedding 会和用户原本的 Embedding 越来越近。所以高维下大概率是“四都像”。

最简单的应用便是：当觉得用户的 User Embedding 不太好时，那可以使用用户最近点击过的 Item Embedding 取平均，从而得到新的 User Embedding。

这个用户的 User Embedding 不太好有多个角度：

用户行为太少（冷启、底活），学不好 Embedding；
模型产出太慢，User Embedding 学的不够快；
模型不太行，捕捉不到用户最近的偏好。

注意：

Item 和 User 要在同一个隐空间中；
可能会太集中于用户短期兴趣，从而产生追打、信息茧房；

最早期有点像 Youtube 2016 年的论文：通过 item embedding 生成 user embedding 的过程。

此外，这里还有一个比较好玩的论文：KDD2020 《PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest》。大概是说：

取用户短期点击的 N 条 Item 会导致太集中短期兴趣；
考虑用户长期历史的兴趣不会追打，但 Pooling 会损失信息，且可能会导致”四不像“，如下：

其“取长补短”，其思路也很简单：取用户较长时间段内交互过的 Item embedding，聚成若干类，再拿每类的 Embedding 取召回，融合后返回。

至于如何聚类，聚几类，可以去看论文，这里不过多阐述。

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

Item embedding 取平均得到 User embedding，是四不像还是四都像

相关文章