您现在的位置是：首页 > 其他

当前栏目

Facebook开源VoiceLoop，根据开放场景语音文字合成新语音

开源场景根据文字开放语音 Facebook 合成

2023-09-27 14:27:58 时间

通过使用与上下文无关（ context-free）的查找表对输入语句进行编码，该表的每个条目包含一个字符或音素。同样，能通过一个短向量来表示说话者，这个短向量也适用于新说话者。而且在生成音频之前，优先准备好缓冲区可以使生成的语音具有可变性。

在论文中，他们提出了一种新的文字转语音的神经网络方法，可以将从开放场景下采样到的声音中提取的文字转化为语音。不同于其他的文字转语音系统，这种方法能够处理从公开演讲中提取出来的非约束性的样本，而且网络架构比现存的解决同样问题的架构要简单。它基于新的移位缓冲内存储器区（shifting buffer working memory），这个缓冲区也可以用于评估注意力，计算输出音频，以及自身的更新。

Facebook开源VoiceLoop，根据开放场景语音文字合成新语音

上图为实验样例中生成的注意力图，X 轴是输出时间（声学样本），Y 轴是输入（文本／音素）。

本文作者：Non 本文转自雷锋网禁止二次转载，原文链接

猜你喜欢

ES6语法糖集锦
Java 复制大文件方式（nio2 FileChannel 拷贝文件能力测试）
【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践（下）
【TypeScript教程】# 12：抽象类
SCM供应链协同管理系统解决方案
Unity3d UGUI以鼠标位置点为中心缩放图片（含项目源码）
Quartz.net持久化与集群部署开发详解
数商云：数字化供应链系统搭建，赋能企业实现物流供应链的优化升级
综合练习-介绍家乡
美团二面：详细说说Kafka拉消息的过程？
1w+ 字总结 Java 常用类，整理太全了，建议收藏..
奥巴马拟为网络安全建设增投140亿美元
ubuntu18.04安装pangolin库，图文详解
全球首发西部数据5毫米厚、2.5英寸硬盘
推荐系统-召回-概述(五)：一切为了业务
中国智慧城市市场规模
甲骨文将收购应用程序编程接口开发公司Apiary
Java对象内存分配
maven打包excel乱码
看雪学院将举办《安全开发者峰会》，有这11个安全议题
Android消息推送之各种方案的对比

相关主题

我的开源路声明
开源收藏
iOS开源项目

zl程序教程

当前栏目

Facebook开源VoiceLoop，根据开放场景语音文字合成新语音

相关文章