zl程序教程

您现在的位置是:首页 >  其他

当前栏目

论文阅读笔记CVPR2020 Semantic Image Manipulation Using Scene Graphs

论文笔记 Using 阅读 Image Semantic Scene
2023-09-11 14:22:51 时间

1、基于原图(source image),模型首先生成场景图,接下来用户对场景图进行修改,通过修改场景图来完成图像的语义编辑最后模型根据修改的场景图生成新的图片。

 2、不需要image对,目标就是通过给定用户一张图结构,用户通过更改节点关系,模型根据新的图结构与原图进行修改获得新图片。

 3、给定一个图像,使用各自的场景图来操作它。

4、贡献:不需要完全监督,也就是说,不需要有场景更改的图像对。可以看作是半自动的,因为用户不需要手动编辑图像,而是通过图的节点和边间接地与它交互。通过这种方式,就有可能对图像中的视觉实体以及它们在空间和语义上相互作用的方式进行修改。最显著的是,用一个模型实现了各种类型的编辑,包括对象之间的语义关系变化。生成的图像保留了原始内容,但允许用户根据需要灵活地更改和/或整合新的或修改过的内容

5、方法:输入一个image i,先生成场景图g,然后根据用户修改的g和原始内容i,生成新的image i'。

6、分为三个互相联系的部分,第一步是场景图生成,将图像内容编码为空间语义场景图,使其易于用户操作。其次,用户通过直接作用于场景图的节点和边来修改对象类别、位置或关系,从而对场景图进行操作。第三步,由修改后的图生成输出图像。

7、场景图预测方法使用的是F-Net

8、把object定义为一个三元组

    

 

 

 

9、作者在 CLVER 和 Visual Genome 两个数据集上进行了试验。CLVER 数据集是利用模拟器生成的合成数据集,

可以得到图片的修改操作和修改前后的信息,便于对模型进行定量的分析。Visual Genome 数据集则可测评该模型在无限制的真实场景中的效果。

10、

(1)在测试阶段,模型首先利用比较成熟的技术,为输入的图片生成场景图,表示图片中出现的对象和它们之间的关系。

接下来,用户对场景图进行修改。最后,模型根据用户的修改操作进行图片生成。

(2)而在训练阶段,输入一张图片,模型首先利用预训练模型对图片中的物体进行检测,提取这些对象的视觉特征(包括属性信息和位置信息)。

接下来,模型利用比较成熟的技术为图片生成其场景图。然后,模型以一定的概率将图片中的一些对象和提取的视觉特征遮盖。最后,模型根据被遮盖的,

残缺不全的原图和场景图重构原图。通过这样的方式,模型不需要(I,G,g,i)作为训练数据,而可以利用大量易得的显存图片数据集。

(3)那么为什么遮盖 - 重构的过程可以在训练阶段代替修改 - 重构的过程?

以女孩骑马的图片为例。当将女孩和马的关系‘骑’修改为‘在旁边’时,模型需要重新安排这些物体的空间位置关系,也就是将原有的关系丢弃,

根据修改后的场景图和其他对象以及关系信息重构图像。这个丢弃原有关系重新预测的过程,就可类比为将特征遮盖并预测的过程。

 11、training

(1)使用了一个辅助分类loss确保鉴别器能够将生成的object分类到他们正确的标签。

(引用:Conditional image synthesis with auxiliary classifier gans

(2)