zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

雅虎面向研究人员发布大规模机器学习数据集

机器学习数据 发布 研究 面向 人员 大规模
2023-09-27 14:21:21 时间

据外媒报道,日前,雅虎推出了一个全新的“雅虎新闻推荐(Yahoo News Recommendation)”数据集,它被称为是有史以来对外公布最大的机器学习数据集。雅虎表示,这套数据集主要针对学术研究社团推出,这样他们在研究中再也不需要为无法获得大规模数据集而发愁了。

据悉,公开的数据集包括了1100亿个事件,其在未压缩的状态下总容量达13.5TB。

研究人员可以在数据集中找到匿名用户新闻交互数据等数据,这些数据则都是在去年早几个月从2000万名用户那里收集得到。

在Yahoo News Feed数据集中有来自用户与雅虎多个不同版块的互动数据,如雅虎电影、雅虎新闻、雅虎金融等。

另外,雅虎还在这套数据集中添加了一些人口分布数据,如性别、年龄及地理位置等。雅虎在一份声明中说道:“我们的目标是在大规模机器学习和推荐系统中促进独立研究的发展,并还要帮助在工业和学术研究之间创造一个公平竞争的环境。


【ML】机器学习数据集:sklearn中分类数据集介绍 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍sklearn中几个常用的分类预测数据集。本教程使用的sklearn版本是1.0.2。
【ML】机器学习数据集:sklearn中回归数据集介绍 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。