DALL-E 人工智能的艺术家
*人工智能已经迎来第三次浪潮,一方面,人工智能已经应用于社会的方方面面,并日益发挥着无可替代的作用;另一方面,人工智能存在着局限性以及争议。你对人工智能的应用场景或人工智能的争议有什么理解呢?快来分享一下吧!
选择一: 人工智能的【能】
应用场景
超现实主义强调梦幻与现实的统一才是绝对的真实,而如今OpenAI创造的DALL·E图像生成器,能够直接通过文本描述生成类似超现实主义的图像,让机器也能拥有顶级画家、设计师的创造力。
人工智能技术
DALL.E:
论文链接:https://readpaper.com/paper/672206509969932288
应用现状
先感受一下DALL·E生成图像,下图是当我们输入文本"牛油果形状的扶手椅。仿梨型的扶手椅。"时的图片输出DALL·E果然生成了众多画风不同的超现实主义的图片,像真实存在的一样。
DALL·E的整体流程如下:
1.第一个阶段,先训练一个dVAE把每张256x256的RGB图片压缩成32x32的图片token,每个位置有8192种可能的取值(也就是说dVAE的encoder输出是维度为32x32x8192的logits,然后通过logits索引codebook的特征进行组合,codebook的embedding是可学习的)。
2.第二阶段,用BPE Encoder对文本进行编码,得到最多256个文本token,token数不满256的话padding到256,然后将256个文本token与1024个图像token进行拼接,得到长度为1280的数据,最后将拼接的数据输入Transformer中进行自回归训练。
3.推理阶段,给定一张候选图片和一条文本,通过transformer可以得到融合后的token,然后用dVAE的decoder生成图片,最后通过预训练好的CLIP计算出文本和生成图片的匹配分数,采样越多数量的图片,就可以通过CLIP得到不同采样图片的分数排序(详细过程可以看非官方实现DALLE-pytorch/dalle_pytorch.py)。
未来发展
DALL-E已经向我们展现了惊人的创造力,后续生成模型又会带给我们什么样的惊喜呢?
相关文章
- 在 Go 里用 CGO?这 7 个问题你要关注!
- 9款优秀的去中心化通讯软件 Matrix 的客户端
- 求职数据分析,项目经验该怎么写
- 在OKR中,我看到了数据驱动业务的未来
- 火山引擎云原生大数据在金融行业的实践
- OpenHarmony富设备移植指南(二)—从postmarketOS获取移植资源
- 《数据成熟度指数》报告:64%的企业领袖认为大多数员工“不懂数据”
- OpenHarmony 小型系统兼容性测试指南
- 肯睿中国(Cloudera):2023年企业数字战略三大趋势预测
- 适用于 Linux 的十大命令行游戏
- GNOME 截图工具的新旧截图方式
- System76 即将推出的 COSMIC 桌面正在酝酿大变化
- 2GB 内存 8GB 存储即可流畅运行,Windows 11 极致精简版系统 Tiny11 发布
- 迎接 ecode:一个即将推出的具有全新图形用户界面框架的现代、轻量级代码编辑器
- loongarch架构介绍(三)—地址翻译
- Go 语言怎么解决编译器错误“err is shadowed during return”?
- 敏捷:可能被开发人员遗忘的部分
- Denodo预测2023年数据管理和分析的未来
- 利用数据推动可持续发展
- 在 Vue3 中实现 React 原生 Hooks(useState、useEffect),深入理解 React Hooks 的