您现在的位置是：首页 > 后端

当前栏目

【Pytorch学习笔记】11.取Dataset的子集、给Dataset打乱顺序的方法（使用Subset、random_split）

方法笔记学习 PyTorch 11 顺序 split Random

2023-09-27 14:19:57 时间

（pytorch版本：1.2）

文章目录

我们在使用Dataset定义好数据集后，在处理数据集时经常会碰到这些问题：如何把Dataset拆分成两个子集（如用于指定训练集和测试集、k折交叉验证等）？如何进行随机拆分？如何打乱一个Dataset内数据的顺序？

Dataset取子集、拆分

使用 torch.utils.data.Subset() 可对数据集取子集。
在这里插入图片描述
传入一个Dataset，一个序列切片indices，即可得到一个子集。

1.我们可以传入一个range()：

indices = range(18353) # 取标号为第0个到第18352个数据
sub_imgs = torch.utils.data.Subset(imgs, indices)
len(imgs), len(sub_imgs)

在这里插入图片描述

2.可以取区间：

indices = range(18353, 27153) # 取标号为第18353个到第27152个数据
sub_imgs = torch.utils.data.Subset(imgs, indices)
len(imgs), len(sub_imgs)

在这里插入图片描述

3.可以传入一个List。有List就可以用列表生成式：

indices = [x for x in range(1234)]
sub_imgs = torch.utils.data.Subset(imgs, indices)
len(imgs), len(sub_imgs)

在这里插入图片描述

打乱Dataset内数据的顺序

我们可以直接传入一个乱序的index就可以达到数据集乱序的目的：

from torch import randperm
lenth = randperm(len(Leaf_dataset_train)).tolist() # 生成乱序的索引
rand_train = torch.utils.data.Subset(imgs, lenth)

# 显示一下第一张图片、原标号
X = rand_train[0]
plt.imshow(torch.transpose(X[0],0,2)), lenth[0]

在这里插入图片描述

我们在打乱顺序后就可以取子集对数据集进行k折交叉验证等行为。

随机拆分Dataset

使用 torch.utils.data.random_split() 可直接对数据集进行拆分，随机分成多份。
在这里插入图片描述
可以传入一个List，注意传入的List序列中包含每个子集的大小（数量），且这几个数的和必须等于传入Dataset的长度。
示例：

# 这里Leaf_dataset_train的大小必须等于 17000+1353
train_set, test_set = torch.utils.data.random_split(Leaf_dataset_train, [17000, 1353])
print(len(train_set), len(test_set))

在这里插入图片描述

猜你喜欢

DG查看恢复进度
MySQL 磁盘满了，怎么办？？
OCP-1Z0-051-题目解析-第10题
洛谷P4983 忘情题解
UVA 565 565 Pizza Anyone? （深搜 +位运算）
Python3中使用locust 2.15.1压测grpc接口
【C程序设计教程实验】基础练习题（一）
基于微信小程序的英语单词记忆系统的设计与实现_kaic
python3.3.5x64+win2003x64+aliyun oss sdk安装步骤
Kafka源码分析之KafkaProducer
[trustzone]-ARM trustzone技术下常见的软件框图
Akka入门
松耦合，严密的数据访问可以最大限度地降低新技术的安全隐患
防盗链Nginx设置图片防盗链，设置无效的请仔细看红字
[Issue Fixed]-Ubuntu20.04执行apt-get update报错:404 Not Found [IP: 91.189.91.38 80]
宇宙射线会导致路由器 bug，思科你认真的吗
7个基础js函数
mysql将语句写入表中
色彩如何影响 UX 和用户行为
网络安全之信息收集技术（全）
ODPS
深析静态链接库和动态链接库相同函数覆盖及库调用顺序问题

相关主题

Python字典方法
vim的使用方法
Delphi 类的方法
time使用方法

zl程序教程

当前栏目

【Pytorch学习笔记】11.取Dataset的子集、给Dataset打乱顺序的方法（使用Subset、random_split）

文章目录

Dataset取子集、拆分

打乱Dataset内数据的顺序

随机拆分Dataset

相关文章