您现在的位置是：首页 > 其他

当前栏目

DALL-E 人工智能的艺术家

人工智能

2023-03-14 22:56:47 时间

*人工智能已经迎来第三次浪潮，一方面，人工智能已经应用于社会的方方面面，并日益发挥着无可替代的作用；另一方面，人工智能存在着局限性以及争议。你对人工智能的应用场景或人工智能的争议有什么理解呢？快来分享一下吧！

选择一：人工智能的【能】

应用场景

超现实主义强调梦幻与现实的统一才是绝对的真实，而如今OpenAI创造的DALL·E图像生成器，能够直接通过文本描述生成类似超现实主义的图像，让机器也能拥有顶级画家、设计师的创造力。

人工智能技术

DALL.E:

论文链接：https://readpaper.com/paper/672206509969932288

应用现状

先感受一下DALL·E生成图像，下图是当我们输入文本"牛油果形状的扶手椅。仿梨型的扶手椅。"时的图片输出DALL·E果然生成了众多画风不同的超现实主义的图片，像真实存在的一样。

DALL·E的整体流程如下：

1.第一个阶段，先训练一个dVAE把每张256x256的RGB图片压缩成32x32的图片token，每个位置有8192种可能的取值(也就是说dVAE的encoder输出是维度为32x32x8192的logits，然后通过logits索引codebook的特征进行组合，codebook的embedding是可学习的)。

2.第二阶段，用BPE Encoder对文本进行编码，得到最多256个文本token，token数不满256的话padding到256，然后将256个文本token与1024个图像token进行拼接，得到长度为1280的数据，最后将拼接的数据输入Transformer中进行自回归训练。

3.推理阶段，给定一张候选图片和一条文本，通过transformer可以得到融合后的token，然后用dVAE的decoder生成图片，最后通过预训练好的CLIP计算出文本和生成图片的匹配分数，采样越多数量的图片，就可以通过CLIP得到不同采样图片的分数排序(详细过程可以看非官方实现DALLE-pytorch/dalle_pytorch.py)。

未来发展

DALL-E已经向我们展现了惊人的创造力，后续生成模型又会带给我们什么样的惊喜呢？

猜你喜欢

如何设计「时间显示」更专业？来看大厂总结的方法！
MySQL随机恢复的设计思路
PyTorch 1.9发布！移动端疯狂更新，网友：我的最爱
滴滴的分布式ID生成器（Tinyid），好用的一批
一口气说出9种分布式ID生成方式，面试官有点懵了
微信大调整：提升直播内容权重单独入口默认开启
Mybatis_day03:输入映射和输出映射
资本押注云原生数据库，偶数完成B轮融资
谷歌宣布为 Android 系统提供六项新功能：地震预警、标星信息等等，今夏推出
一文搞懂Select、Poll和Epoll区别
APP开发：iOS和Android应该如何选择？你可以这样做
B端设计师的价值在哪里？来看总监级的分析（下）
Redis还可以做哪些事？
Redis五大数据类型使用场景
B端设计师的价值在哪里？来看总监级的分析（上）
【面经】面试官：如何以高的效率从MySQL中随机查询一条记录？
Android的多进程通讯-深入了解
QQ新表情“大菜汪”霸屏：无论手机屏幕多大绝不会模糊
CentOS下MySQL 8.0安装部署，超详细！
谷歌为 Android 12 添加了新的通话状态栏指示器

zl程序教程

当前栏目

DALL-E 人工智能的艺术家

选择一：人工智能的【能】

应用场景

人工智能技术

应用现状

未来发展

相关文章

当前栏目

DALL-E 人工智能的艺术家

选择一： 人工智能的【能】

应用场景

人工智能技术

应用现状

未来发展

相关文章

选择一：人工智能的【能】