您现在的位置是：首页 > 其他

当前栏目

停止从 Kaggle 下载数据集（如果你不是初学者）

下载数据不是停止如果初学者 Kaggle

2023-09-11 14:18:47 时间

任何学习数据科学的人访问量最大的网站之一是 Kaggle。Kaggle 有各种各样的数据集，从口罩检测到辛普森一家的所有剧集，但在项目中使用它们之前应该三思而后行。

Kaggle 数据集有利于学习数据科学，但是当涉及到您计划在简历中包含的项目时，仅使用此类数据集并不是一个好的选择。为什么？很简单，招聘人员一遍又一遍地在简历中看到这样的项目。

和你一样，许多数据科学爱好者下载 Kaggle 数据集来启动项目。如果你想脱颖而出，你应该停止从 Kaggle 下载数据集，并在开始一个新项目之前按照以下步骤操作。

第 1 步：考虑一个您喜欢的主题并使用网络抓取（或 API）构建您自己的数据集

如何开始一个很少有人从事过的独特项目？建立自己的数据集！

Kaggle 数据集已被许多人下载，甚至在数百个教程和指南中使用。这就是为什么 Kaggle 不会帮助你建立一个好的投资组合，因为招聘人员已经多次看到具有此类数据集的项目。相比之下，如果您想到自己喜欢的主题并构建自己的数据集，则从其他数据科学家中脱颖而出的机会会更高。

创建唯一数据集的一种方法是使用网络抓取。这是一种用于从网站提取数据的技术。这意味着您可以将 Web 数据放入 CSV 文件中，以后可以在数据科学项目中使用该文件。这是一个关于如何使用 Python 的库 Selenium 抓取网站的教程。当然，首先你应该看看网站是否有API。如果是这样，您可以提取所有数据而无需从头开始创建网络爬虫，而只需发送请求。

以下是创建唯一数据集的步骤。

想一个你喜欢的话题
访问具有您想要的部分或全部数据的不同网站
选择最好的网络抓取库来抓取该数据。如果数据在 Wikipedia 中，Pandas 就足够了。如果数据位于 J

猜你喜欢

json对象、json字符串的区别和相互转换
【Teradata】tdlocaledef修改默认日期配置
Happens before
Untiy 接入移动MM 详解
linux部署的flask项目配置static
SQL实例整理
Java实现 LeetCode 462 最少移动次数使数组元素相等 II
paip.输入法编程---词频顺序order by py
判断入栈顺序是否合法
JS框架_(Esign.js)仿信用卡电子签名特效
Spring Boot 项目访问依赖 jar 包内部的资源文件的路径问题详解
2016. 增量元素之间的最大差值
使用ABAP SE16查看类型为RAWSTRING的数据库列字段值
字符串数组全排列
改进的粒子滤波算法及其应用研究（Matlab代码实现）
Java反射机制清空字符串导致业务异常分析

相关主题

Java文件下载
数据集下载
Git下载与安装
http请求下载
下载限速
批量下载
下载mysql驱动jar包
SpringMVC--文件下载
Pycharm下载与安装
下载数据库包
元数据元数据
mysql驱动下载
centos 下载
win10下载
asp.net实现下载
sqlserver下载

zl程序教程

当前栏目

停止从 Kaggle 下载数据集（如果你不是初学者）

第 1 步：考虑一个您喜欢的主题并使用网络抓取（或 API）构建您自己的数据集

相关文章