首个融合场景图知识的多模态预训练模型 ERNIE-ViL
训练 模型 知识 场景 融合 首个 模态
2023-09-11 14:17:14 时间
近日,百度在该领域取得突破,提出业界首个融合场景图知识的多模态预训练模型 ERNIE-ViL。百度研究者将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等 5 项典型多模态任务中刷新了世界最好效果。并在多模态领域权威榜单视觉常识推理任务(VCR)上登顶榜首。
论文链接:https://arxiv.org/abs/2006.16934
ERNIE 开源地址:https://github.com/PaddlePaddle/ERNIE
好东西留着进一步研读
相关文章
- Java实现 蓝桥杯VIP 算法训练 无权最长链
- Java实现 蓝桥杯 算法训练 数字游戏
- Java实现 蓝桥杯VIP 算法训练 开心的金明
- Java实现 蓝桥杯VIP 算法训练 统计字符次数
- Java实现 蓝桥杯VIP 算法训练 和为T
- 【目标检测】60、MMYOLO | 如何使用 MMYOLO 训练模型
- NLP:自然语言处理技术领域的代表性算法概述(技术迭代路线图/发展时间路线)、四大技术范式变迁概述(统计时代→大模型时代)、四个时代的技术方法论探究(少数公司可承担的训练成本原因)之详细攻略
- NLP之BERT:BERT的简介(背景、改进点、创新点、简介、意义、原理、优缺点、总结与评价)、模型结构、训练过程(MLM、NSP任务的概述)之详细攻略
- AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略
- CV之NS之VGG16:基于TF Slim库利用VGG16算法的预训练模型实现七种不同快速图像风格迁移设计(cubist/denoised_starry/mosaic/scream/wave)案例
- DL之RNN:人工智能为你写周董歌词——基于TF利用RNN算法实现【机器为你作词】、训练&测试过程全记录
- ML:模型训练/模型评估中常用的两种方法代码实现(留一法一次性切分训练和K折交叉验证训练)
- TF之CNN:基于CIFAR-10数据集训练、检测CNN(2+2)模型(TensorBoard可视化)
- TF之pix2pix之dataset:基于TF利用自己的数据集训练pix2pix模型之DIY自己的数据集
- pytorch训练模型代码的关机几步
- 【华为云技术分享】网络场景AI模型训练效率实践
- 推荐人工智能领域十大类专业好用的深度学习预训练模型
- 如何使用OpenAI fine-tuning(微调)训练属于自己专有的ChatGPT模型?
- NLP模型笔记2022-16:词向量、中文词向量的训练与中文词向量论文综述
- 风格迁移1-03:Liquid Warping GAN(Impersonator)-数据处理,模型训练-报错解决
- SnowNLP使用自定义语料进行模型训练(情感分析)
- RL之SARSA:利用强化学习之SARSA实现走迷宫—训练智能体走到迷宫(复杂陷阱迷宫)的宝藏位置
- NLP史上最全预训练模型汇总
- 架构设计 + 模型训练 + 涨点技巧 + 炼丹技巧(文章总结)
- DeepRec 大规模稀疏模型训练推理引擎