您现在的位置是：首页 > 硬件

当前栏目

深度学习1 基于h5py使用数据迭代器训练超过内存的数据

内存训练学习数据迭代基于深度超过

2023-09-14 09:15:04 时间

背景

在使用keras训练图像数据时，通常使用ImageDataGenerator()的方式迭代目录，分批次读取。而对于容量超大甚至超过内存数组文件（npy文件或者mat文件）时无法通过文件迭代器来分批次读取，因此提出该方法。

解决方法

1、安装h5py库使用该命令：pip install h5py

2、将数组文件载入内容重新保存为h5py文件。分批次将数组存为h5py的方法可以查阅https://blog.csdn.net/a486259/article/details/86154857

3、构建迭代器，使用h5py['target'][index:index+batch_size]的方法不断迭代数据

4、使用迭代的方法训练模型

原理说明

使用h5py['target'].shape、h5py['target'].[index:index+batch_size]等命令时，并不会将h5py['target']所对应的全部数据加载到内存中

如h5py[index:index+batch_size]获取数据，h5py只会将相应数据index位置起的batch_size条记录返回

操作案例

1、将目标数据转存为h5py文件（代码中的save_h5方法来自于https://blog.csdn.net/a486259/article/details/86154857）

我这里数据用data表示，标签用i_labe表示

2、构造数据迭代器

import h5py
from sklearn.model_selection import train_test_split
from keras.utils.np_utils import to_categorical
def data_gen(dtype='train',rate=0.2,batch_size=500):
    file_name='all_data.h5'  #刚刚存储的文件
    h5f=h5py.File(file_name)
    while True:
        for index in range(0,h5f['data'].shape[0],batch_size):
            data=h5f['data'][index:index+batch_size]  #读取数据
            i_label=h5f['i_label'][index:index+batch_size]  #读取标签
            i_label = to_categorical(i_label, num_classes=hz_nums)  #将标签转化为独热码的形式
            X_train, X_test, y_train, y_test =train_test_split(data,i_label,train_size=rate, test_size=1-rate, random_state=42) #将数据划分为训练集和测试集
            if dtype=='train':   #按照不同的需求返回数据
                yield (X_train, y_train)
            else:
                yield (X_test, y_test)

3、使用迭代器训练数据

其中，steps_per_epoch表示需要迭代多少次才能获取一个epoch的训练数据

validation_steps表示需要迭代多少次才能获取一个epoch的验证数据

因为我的数据是在迭代时才划分的，所以steps_per_epoch跟validation_steps相等

file_name='all_data.h5'
h5f=h5py.File(file_name)
all_data_num=h5f['data'].shape[0] #获取全部数据的量
rate=0.8   #训练集划分的比例
batch_size=1000    #每次取数据的batch_size
model.fit_generator(data_gen(dtype='train',rate=rate,batch_size=batch_size),
                    steps_per_epoch=all_data_num// batch_size,
                    epochs=100,
                    validation_data=(data_gen(dtype='test',rate=rate,batch_size=batch_size)),
                    validation_steps=all_data_num// batch_size,
                    callbacks=callbacks,
                    shuffle=True,
                    verbose=1)

4、使用迭代器的数据评估模型

loss,acc=model.evaluate_generator(data_gen(dtype='test',rate=rate,batch_size=batch_size),steps=all_data_num// batch_size)

猜你喜欢

使用开源Cesium+Vue实现倾斜摄影三维展示
Consul与微服务
Redis队列插入性能挑战为何插入速度如此之慢（redis 队列插入慢）
Linux服务器：完美重启与蓬勃发展（linux服务重启）
双收Linux: 实现成功与名望并存（linux名利）
重温：vue3之ref(vue3函数)
解析CI即CodeIgniter框架在Nginx下的重写规则
快速入门Redis脚本开发（redis 脚本教程）
「用SSH登录Linux：步骤及注意事项」（怎么用ssh登录linux）
Linux自动安装脚本：安装简单、方便快捷（linux安装脚本）
突破禁用QQ以及封锁屏蔽解决方案
androidPOST数据遇到的UTF-8编码（乱码）问题解决办法
MSSQL与Java的数据库连接实践（mssql连接java）
Linux groupadd命令：新建工作组
Vue03基础语法--Vue组件+样式绑定+修饰符+常用控件+自定义指令+自定义事件
09-基于Nginx发布静态资源
在Linux系统上如何安装NS2网络仿真工具？（ns2安装linux）

相关主题

内存映射
C 内存管理
内存管理介绍

zl程序教程

当前栏目

深度学习1 基于h5py使用数据迭代器训练超过内存的数据

背景

解决方法

原理说明

操作案例

相关文章