Facebook开源VoiceLoop,根据开放场景语音文字合成新语音
开源 场景 根据 文字 开放 语音 Facebook 合成
2023-09-27 14:27:58 时间
通过使用与上下文无关( context-free)的查找表对输入语句进行编码,该表的每个条目包含一个字符或音素。同样,能通过一个短向量来表示说话者,这个短向量也适用于新说话者。而且在生成音频之前,优先准备好缓冲区可以使生成的语音具有可变性。
在论文中,他们提出了一种新的文字转语音的神经网络方法,可以将从开放场景下采样到的声音中提取的文字转化为语音。不同于其他的文字转语音系统,这种方法能够处理从公开演讲中提取出来的非约束性的样本,而且网络架构比现存的解决同样问题的架构要简单。它基于新的移位缓冲内存储器区(shifting buffer working memory),这个缓冲区也可以用于评估注意力,计算输出音频,以及自身的更新。
通过使用与上下文无关( context-free)的查找表对输入语句进行编码,该表的每个条目包含一个字符或音素。同样,能通过一个短向量来表示说话者,这个短向量也适用于新说话者。而且在生成音频之前,优先准备好缓冲区可以使生成的语音具有可变性。
上图为实验样例中生成的注意力图,X 轴是输出时间(声学样本),Y 轴是输入(文本/音素)。
本文作者:Non 本文转自雷锋网禁止二次转载,原文链接相关文章
- 大厂面试必问的 4 大开源框架,你真会吗?
- Cocos2d-x游戏《雷电大战》开源啦!要源代码要资源快快来~~
- Facebook 开源动画库 pop
- 开源项目推荐:GSL科学计算函数库(GNU Scientific Library),实现VS2019源码编译
- 利用开源工具实现轻量级上网行为审计(来源ispublic.com)
- java 大厂面试指南:性能优化 + 微服务 + 并发编程 + 开源框架 + 分布式
- 主流开源云计算软件大盘点,快拿走适合你的那款!
- 开源SSO Authelia部署(Docker+Ubuntu)
- 多巴胺:谷歌开源新型增强学习框架
- Android开源项目-Easypermissions
- Qt开源作品8-通用控件移动
- Qt编写数据库通用翻页demo(开源)
- react native开源库管理
- 开源要“开”得安全高效:开源云计算的五大发展趋势
- 一些值得关注的开源SDN项目
- 微软开源Chakra,并计划在上面运行Node.js
- apache开源项目-- Usergrid
- apache开源项目--kafka
- Google Code Pretiffy 代码 着色 高亮 开源 javascript(JS)库
- 人工智能科技成熟的11个Github上免费开源项目,很多电影中才有的场景应用到现实颠覆普通人的认知和想象