停止从 Kaggle 下载数据集(如果你不是初学者)
2023-09-11 14:18:47 时间
任何学习数据科学的人访问量最大的网站之一是 Kaggle。Kaggle 有各种各样的数据集,从口罩检测到辛普森一家的所有剧集,但在项目中使用它们之前应该三思而后行。
Kaggle 数据集有利于学习数据科学,但是当涉及到您计划在简历中包含的项目时,仅使用此类数据集并不是一个好的选择。为什么?很简单,招聘人员一遍又一遍地在简历中看到这样的项目。
和你一样,许多数据科学爱好者下载 Kaggle 数据集来启动项目。如果你想脱颖而出,你应该停止从 Kaggle 下载数据集,并在开始一个新项目之前按照以下步骤操作。
第 1 步:考虑一个您喜欢的主题并使用网络抓取(或 API)构建您自己的数据集
如何开始一个很少有人从事过的独特项目?建立自己的数据集!
Kaggle 数据集已被许多人下载,甚至在数百个教程和指南中使用。这就是为什么 Kaggle 不会帮助你建立一个好的投资组合,因为招聘人员已经多次看到具有此类数据集的项目。相比之下,如果您想到自己喜欢的主题并构建自己的数据集,则从其他数据科学家中脱颖而出的机会会更高。
创建唯一数据集的一种方法是使用网络抓取。这是一种用于从网站提取数据的技术。这意味着您可以将 Web 数据放入 CSV 文件中,以后可以在数据科学项目中使用该文件。这是一个关于如何使用 Python 的库 Selenium 抓取网站的教程。当然,首先你应该看看网站是否有API。如果是这样,您可以提取所有数据而无需从头开始创建网络爬虫,而只需发送请求。
以下是创建唯一数据集的步骤。
想一个你喜欢的话题
访问具有您想要的部分或全部数据的不同网站
选择最好的网络抓取库来抓取该数据。如果数据在 Wikipedia 中,Pandas 就足够了。如果数据位于 J
相关文章
- 下载pubmed数据
- Google Earth Engine(GEE)——sentinel-5P数据批量下载(中国区域SO2密度案例)
- Google Earth Engine(GEE)——COPERNICUS/S2高清影像去云处理和10米分辨率数据下载(海南岛为例)
- Google Earth Engine(GEE)——sentinel-5p数据臭氧O3数据的下载(北京市为例)
- Google Earth Engine(GEE)——下载矢量数据过程中出现Property joinedWaterFeature has type Feature错误
- 框架解读:中国互联网年度趋势报告(附128PPT下载)
- springboot文件下载功能开发!
- Python网络编程 - 请求地址上的文件并下载
- HaGRID手势识别数据集使用说明和下载
- 基于iOS 10、realm封装的下载器
- SpringBoot文件的上传与下载
- Nvidia GPU 入门教程之 08 如何在 Python 中使用 Kaggle API,直接从 Kaggle 快速下载数据集
- UA-DETRAC BITVehicle车辆检测数据集(含下载地址)
- leaflet 结合 Echarts4 实现散点图(附源码下载)
- CYQ.Data 轻量数据层之路 最后开源版本V1.5.5发布[V1.4源码对外下载] (二十三)