zl程序教程

您现在的位置是:首页 >  其他

当前栏目

停止从 Kaggle 下载数据集(如果你不是初学者)

下载数据 不是 停止 如果 初学者 Kaggle
2023-09-11 14:18:47 时间

任何学习数据科学的人访问量最大的网站之一是 Kaggle。Kaggle 有各种各样的数据集,从口罩检测到辛普森一家的所有剧集,但在项目中使用它们之前应该三思而后行。

Kaggle 数据集有利于学习数据科学,但是当涉及到您计划在简历中包含的项目时,仅使用此类数据集并不是一个好的选择。为什么?很简单,招聘人员一遍又一遍地在简历中看到这样的项目。

和你一样,许多数据科学爱好者下载 Kaggle 数据集来启动项目。如果你想脱颖而出,你应该停止从 Kaggle 下载数据集,并在开始一个新项目之前按照以下步骤操作。

第 1 步:考虑一个您喜欢的主题并使用网络抓取(或 API)构建您自己的数据集

如何开始一个很少有人从事过的独特项目?建立自己的数据集!

Kaggle 数据集已被许多人下载,甚至在数百个教程和指南中使用。这就是为什么 Kaggle 不会帮助你建立一个好的投资组合,因为招聘人员已经多次看到具有此类数据集的项目。相比之下,如果您想到自己喜欢的主题并构建自己的数据集,则从其他数据科学家中脱颖而出的机会会更高。

创建唯一数据集的一种方法是使用网络抓取。这是一种用于从网站提取数据的技术。这意味着您可以将 Web 数据放入 CSV 文件中,以后可以在数据科学项目中使用该文件。这是一个关于如何使用 Python 的库 Selenium 抓取网站的教程。当然,首先你应该看看网站是否有API。如果是这样,您可以提取所有数据而无需从头开始创建网络爬虫,而只需发送请求。

以下是创建唯一数据集的步骤。

想一个你喜欢的话题
访问具有您想要的部分或全部数据的不同网站
选择最好的网络抓取库来抓取该数据。如果数据在 Wikipedia 中,Pandas 就足够了。如果数据位于 J