[数学理论] 训练集\开发集\测试集
2023-04-18 12:40:21 时间
训练集:用于训练模型的数据集。
开发集(验证集):在通过训练集获得训练模型后,对训练模型的参数进行调整的数据集。
测试集:用于测试最终生成的模型的数据集。
训练集开发集测试集确定:
1.传统的机器学习领域中,由于收集到的数据量往往不多需要将收集到的数据分为三类:训练集、验证集、测试集。也可以分为两类,不需要开发集集。
比例根据经验不同而不同,这里给出一个例子,如果是三类,可能是训练集:验证集:测试集比例为6:2:2;如果是两类,可能是训练集:测试集比例为7:3。因为数据量不多,所以验证集和测试集需要占的数据比例比较多。
2.在大数据时代的机器学习或者深度学习领域中,如果还是按照传统的数据划分方式不是十分合理,因为测试集和验证集用于评估模型和选择模型,所需要的数据量和传统的数据量差不多,但是由于收集到的数据远远大于传统机器学习时代的数据量,所以占的比例也就要缩小。训练集:验证集:测试集比例为98:1:1。如果是两类,也就是相同的道理。
注意:有些人在把数据分类的时候是没有测试集数据,而把实际上的验证集数据叫做测试集数据,这样并不是十分合理,有测试集比较放心,建议把数据分类最好有这个数据集,也就是分为三类数据。但是只要有足够的数据去训练,足够的数据去验证就行了。有时只有训练集和测试集并不是完全不合理。
相关文章
- 直接在代码里面对list集合进行分页
- .NET Framework 4.5新特性详解
- 大数据的简要介绍
- 大数据的由来
- 高斯混合模型的自然梯度变量推理
- timing-wheel 仿Kafka实现的时间轮算法
- 使用Navicat软件连接自建数据库(Linux系统)
- 那一天,我被Redis主从架构支配的恐惧
- Redis 深入了解键的过期时间
- C#使用委托调用实现用户端等待闪屏
- 基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统
- GRAND | 转录调控网络预测数据库
- JFreeChart API中文文档
- 临床相关突变查询数据库
- TIGER | 人类胰岛基因变化查询数据库
- 视频边缘计算网关EasyNVR在视频整体监控解决方案中的应用分析
- Apache Arrow - 大数据在数据湖后的下一个风向标
- 常见的电商数据指标体系
- AKShare-艺人数据-艺人流量价值
- MySQL中多表联合查询与子查询的这些区别,你可能不知道!