Python视觉深度学习系列教程 第二卷 第8章 使用HDF5和大型数据集
2023-09-14 09:01:35 时间
第二卷 第八章 使用HDF5和大型数据集
到目前为止,在本书中,我们只使用了适合我们机器主内存的数据集。对于小数据集,这是一个合理的假设——我们只需加载每个单独的图像,对其进行预处理,并允许它通过我们的网络馈送。然而,对于大规模深度学习数据集(例如ImageNet),我们需要创建一次只访问数据集的一部分(即小批量)的数据生成器,然后允许该批次通过网络。
幸运的是,Keras附带的方法允许您使用磁盘上的原始文件路径作为训练过程的输入。您不必将整个数据集存储在内存中——只需将图像路径提供给Keras数据生成器,您的图像将分批加载并通过网络馈送。
然而,这种方法效率极低。驻留在磁盘上的每个图像都需要I/O操作,这会给训练管道带来延迟。训练深度学习网络已经足够慢了——我们会尽可能地避免I/O瓶颈。
一个更优雅的解决方案是为原始图像生成HDF5数据集,就像我们在第3章关于迁移学习和特征提取中所做的那样,只是这次我们存储图像本身而不是提取的特征。HDF5不仅能够存储海量数据集,而且还针对I/O操作进行了优化,尤其是从文件中提取批次(称为“切片”)。正如我们将在本书的其余部分看到的那样,采取额外步骤将驻留在磁盘上的原始图像打包到HDF5文件中,这使我们能够构建一个深度学习框架,该框架可用于快速构建数据集和训练深度学习网络在他们之上。
在本
相关文章
- 【python教程入门学习】PyCharm下载和安装教程(包含配置Python解释器)
- python学习笔记(三)— PyCharm 下载安装教程(Windows)
- python re.compile() 详解——Python正则表达式「建议收藏」
- pycharm怎么安装python_pycharm环境配置教程
- Python学习笔记(一)PyCharm社区版安装教程
- python教程:用简单的Python编写Web应用程序
- Python机器学习教程—线性回归的实现(不调库和调用sklearn库)
- Python机器学习教程—回归模型的评估与封装
- 太全了!用Python操作MySQL的使用教程集锦!
- Python数组切片_python print数组
- 【测试开发】python系列教程:python安装
- Python安装失败_python第三方库安装失败
- Python机器学习教程—前传:机器学习介绍(2)
- python使用opencv如何保存图片_OpenCV Python 保存图片
- Python学习:内建属性、内建函数的教程
- 【测试开发】python系列教程:Python 推导式
- 【测试开发】python系列教程:Python注释和解释器
- Python学习:1.快速搭建python环境详解编程语言
- 开发Linux下Python编程:实现自己的开发梦想(linux下python)
- 提升Linux环境:升级Python(linux升级python)
- Python教程网络安全篇
- 下的应用玩转Python:Linux下的Python应用之旅(python在linux)
- 在Linux上安装Python学习快乐(linux下载python)
- 如何把时间序列问题转化为监督学习问题?通俗易懂的 Python 教程
- 简明Python基础学习教程
- Python除法小技巧