您现在的位置是：首页 > 其他

当前栏目

【协同语音手势】开源 | 一个新的框架ANGIE，有效地捕获可重用的共同语音手势模式以及精细的节奏运动

开源框架模式一个有效以及语音协同

2023-06-13 09:15:18 时间

论文地址： http://arxiv.org/pdf/2212.02350v1.pdf

来源： 香港中文大学

论文名称：Audio-Driven Co-Speech Gesture Video Generation

原文作者：Xian Liu

内容提要

协同语音手势对于人机交互和数字娱乐至关重要。而之前的作品大多将语音音频映射到人类骨骼（例如，2D关键点），在图像域中直接生成说话者的手势问题未解决。在这项工作中，我们正式定义并研究了音频驱动的联合语音手势视频生成，即使用统一框架以生成由语音音频驱动的说话者图像序列。本文的关键是共同语音手势可以被分解成共同的运动模式微妙的节奏动态。为此，我们提出了一个新的框架AudiodriveN Gesture vIdeo gEneration（ANGIE），以有效地捕获可重用的共同语音手势模式以及精细的节奏运动。为了实现高保真的图像序列生成，我们利用了无监督的而不是结构人体先验（例如2D骨架）。具体而言，1）我们提出了一种矢量量化运动提取器（VQ-motion Extractor）从内隐运动中总结常见的共同语音手势模式表示为码本。2）此外，具有运动的协同语音手势GPT细化（Co-Speech GPT）旨在补充微妙的韵律运动细节。大量实验表明，我们的框架能够渲染逼真的语音手势视频。

主要框架及实验结果

声明：文章来自于网络，仅用于学习分享，版权归原作者所有

猜你喜欢

掌握MySQL：学习复杂存储过程（mysql复杂存储过程）
ffmpeg编译静态库
使用Redis实现顺序取值功能（redis顺序取值）
创建型模式--设计模式详解？
如何正确配置MySQL服务器（服务器mysql配置）
PHP生成自定义长度随机字符串的函数分享
将港中文建成中国 AI 视觉黄埔军校的人
彻底理解solidity中的事件
Linux ps命令：显示进程状态
撤销git commit 操作的3个指令，你必须要学会！！！
JS日历控件(蓝色)
MacOS：外置显卡为设备提供更棒的性能（macos外置显卡）
ORA-41673: sequence attribute not allowed in rule conditions using table aliases ORACLE 报错故障修复远程处理
Linux下的树状结构——探索文件系统结构（linuxtree）
如何调试EVM智能合约（第1篇）: 理解汇编

zl程序教程

当前栏目

【协同语音手势】开源 | 一个新的框架ANGIE，有效地捕获可重用的共同语音手势模式以及精细的节奏运动

相关文章