【协同语音手势】开源 | 一个新的框架ANGIE,有效地捕获可重用的共同语音手势模式以及精细的节奏运动
2023-06-13 09:15:18 时间
论文地址: http://arxiv.org/pdf/2212.02350v1.pdf
来源: 香港中文大学
论文名称:Audio-Driven Co-Speech Gesture Video Generation
原文作者:Xian Liu
内容提要
协同语音手势对于人机交互和数字娱乐至关重要。而之前的作品大多将语音音频映射到人类骨骼(例如,2D关键点),在图像域中直接生成说话者的手势问题未解决。在这项工作中,我们正式定义并研究了音频驱动的联合语音手势视频生成,即使用统一框架以生成由语音音频驱动的说话者图像序列。本文的关键是共同语音手势可以被分解成共同的运动模式微妙的节奏动态。为此,我们提出了一个新的框架AudiodriveN Gesture vIdeo gEneration(ANGIE),以有效地捕获可重用的共同语音手势模式以及精细的节奏运动。为了实现高保真的图像序列生成,我们利用了无监督的而不是结构人体先验(例如2D骨架)。具体而言,1)我们提出了一种矢量量化运动提取器(VQ-motion Extractor)从内隐运动中总结常见的共同语音手势模式表示为码本。2)此外,具有运动的协同语音手势GPT细化(Co-Speech GPT)旨在补充微妙的韵律运动细节。大量实验表明,我们的框架能够渲染逼真的语音手势视频。
主要框架及实验结果
声明:文章来自于网络,仅用于学习分享,版权归原作者所有
相关文章
- 【开源分享】教你如何在HTML中执行Python脚本代码!超级简单赶紧收藏。
- 那些年我做的开源项目之KV引擎(NutsDB)
- 《安富莱嵌入式周报》第284期:Matlab2022b发布,支持从 .NET 调用,耳机放大器,牛屎芯片替换,JSON可视化,开源的飞行软件和嵌入式系统框架
- JeecgBoot 3.4.3-GA 版本发布,开源免费的企业级低代码平台
- 2小时开发《点球射门游戏》,动画演示思路(上),代码已开源
- 已跪,Java全能笔记爆火,分布式/开源框架/微服务/性能调优全有
- 开源新一代项目管理系统,全行业覆盖的一站式项目协作工具
- 美团:某动态线程池框架是官方开源的么?
- 小程序逆向工程:这个开源的小程序逆向工具真不错,2023年亲测成功
- AI加持的WPS来了:金山开源全球首个办公DL框架KSAI-Lite
- ICCV 2021 | 兼顾图像超分辨率、图像再缩放,ETH提出新型统一框架HCFlow,已开源
- 可定制算法和环境,这个开源强化学习框架火了
- 开源分布式任务调度系统就选它!
- 2023年4月最强AI开源项目合集
- Linux:开源的力量改变世界(linux系统的主要特点)
- Linux Isatap:探索开源之旅(linuxisatap)
- Linux之父Linus赐予的分支:“开源世界的征程”(linux的分支)
- Linux的演变史:从开源分支到发展壮大(linux的分支)
- 用于 Web 前端开发的 9 个 JavaScript 开源框架
- 阿里巴巴开源的 Dragonfly 升级为 CNCF 孵化项目
- 预告:MXNet火了,AI从业者该如何选择深度学习开源框架丨硬创公开课
- MySQL:仍然开源!(mysql还开源吗)
- 开源Linux 0x00:开源自由,改变世界未来(linux0x00)
- 开源让Redis实现最大效能(源码连接redis)
- 分享15个最受欢迎的Python开源框架