zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

机器学习笔记 - 使用CNN和LSTM为图像生成文字描述

机器笔记学习 生成 图像 CNN lstm 使用
2023-09-14 09:01:35 时间

一、任务描述

        看到一张图像,你的大脑可以很容易地分辨出图像是关于什么的,但是计算机能分辨出图像所代表的内容吗?随着深度学习技术的进步、庞大数据集的可用性和计算机能力,我们可以构建可以为图像生成说明的模型。

        我们将使用CNN(卷积神经网络) 和 LSTM(长期短期记忆)来实现字幕生成器。图像特征将从 Xception 中提取,Xception 是在 imagenet 数据集上训练的 CNN 模型,然后我们将特征输入 LSTM 模型,该模型将负责生成图像说明。

二、数据集说明

        这里使用 Flickr_8K 数据集。虽然还有其他大型数据集,如 Flickr_30K 和 MSCOCO 数据集,但仅训练网络可能需要几周时间,所以我们将使用小型 Flickr8k 数据集。但是庞大数据集的优势在于我们可以构建更好的模型。

        Flickr_8K 数据集为基于句子的图像描述和搜索引入了一个新的基准集合,由 8,000 张图像组成,每张图像都与五个不同的标题配对,这些标题提供了对显着实体和事件的清晰描述。

        数据集下载地址

链接:https://pan.baidu.com/s/1aG3CYioORpPdXC89_F_s3A 
提取码:q9el