阿里云产品-智能语音交互快速测评
2023-04-18 15:23:04 时间
一,产品概述
阿里云的智能语音交互产品提供语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。
其主要有以下优势:
- 定制识别及发音:可用于客服、阅读、虚拟人等场景
- 易接入:并提供API和多种SDK
- 识别准确率高:持续迭代提升
- 响应速度快:低延迟,秒级处理返回语音识别结果
二,产品在线使用
2.1,开通产品服务
首先,进入智能语音交互产品首页,单击开通并购买,然后在产品开通页面,选择服务类型并选中服务协议,单击立即开通,即可开通智能语音交互服务。
2.2,管理项目
登录智能语音交互控制台,创建项目生成 Appkey
,并进入项目功能配置页面。
然后就可以根据我们的任务和使用场景,选择配置项目所需的语音识别和语音合成模型。
1,我使用默认的语音识别模型在办公室场景下,测试了语音识别(ASR)功能,初步感觉准确率还是很高的,语音对应文字都识别出来了。产品项目功能配置页面和语音识别结果如下图所示。
2,目前语音识别模型支持中国语言多大24种,包括:普通话、中英文混合说、四川话等等,并支持 50 种外国语言。我测试了中英文混合说模型,发现如果我自己读的英语发音不是很标准的话,其识别会出现错误,但用机器朗读的口语能完全准确识别。
3,语音合成 TTS
的功能基本使用是没有问题的,支持的声音类型也有很多种,但是实际测试下来,个人感觉能够听出来是电脑“合成”的声音,效果还是不够自然,期待后续迭代更新。
三,服务端Python SDK 测试
3.1,下载安装
按照以下脚本下载 SDK 并安装在服务端电脑。
# 1,下载Python SDK。
git clone https://github.com/aliyun/alibabacloud-nls-python-sdk.git
# 2, 安装SDK依赖: 进入SDK根目录使用如下命令安装SDK依赖
python -m pip install -r requirements.txt
# 3, 安装SDK包: 依赖安装完成后使用如下命令安装SDK
python -m pip install .
# 4,安装完成后通过以下代码导入SDK。
import nls
注意上述脚本命令均需要在SDK根目录中执行。
安装完 nls
包后,进入 python 解释器环境,如果 import nls
代码能运行成功,则说明 sdk 安装完成,如下图所示。
四,产品使用总结
个人感觉阿里智能语音交互产品的精度还是很高的,通过 sdk 的方式嵌入在其他代码中也很方便,可以应用在工业界产品中,比如智能音箱。
虽然有诸多优点,但再完美的产品也是缺点的,以下是我测评之后总结的一些可以考虑改进的点:
- SDK 文档描述不够清晰,给出的代码示例不够丰富,且注释很少
- 语音合成效果可以更自然些
参考资料
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击