您现在的位置是：首页 > 其他

当前栏目

阿里云产品-智能语音交互快速测评

项目阿里产品智能 SDK

2023-04-18 15:23:04 时间

一，产品概述

阿里云的智能语音交互产品提供语音识别、语音合成、自然语言理解等技术，实现“能听、会说、懂你”式的智能人机交互体验，适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。

其主要有以下优势：

定制识别及发音：可用于客服、阅读、虚拟人等场景
易接入：并提供API和多种SDK
识别准确率高：持续迭代提升
响应速度快：低延迟，秒级处理返回语音识别结果

二，产品在线使用

2.1，开通产品服务

首先，进入智能语音交互产品首页，单击开通并购买，然后在产品开通页面，选择服务类型并选中服务协议，单击立即开通，即可开通智能语音交互服务。

speech_prodcut1

2.2，管理项目

登录智能语音交互控制台，创建项目生成 Appkey，并进入项目功能配置页面。

speech_prodcut3

然后就可以根据我们的任务和使用场景，选择配置项目所需的语音识别和语音合成模型。

1，我使用默认的语音识别模型在办公室场景下，测试了语音识别（ASR）功能，初步感觉准确率还是很高的，语音对应文字都识别出来了。产品项目功能配置页面和语音识别结果如下图所示。

speech_prodcut4

2，目前语音识别模型支持中国语言多大24种，包括：普通话、中英文混合说、四川话等等，并支持 50 种外国语言。我测试了中英文混合说模型，发现如果我自己读的英语发音不是很标准的话，其识别会出现错误，但用机器朗读的口语能完全准确识别。

3，语音合成 TTS 的功能基本使用是没有问题的，支持的声音类型也有很多种，但是实际测试下来，个人感觉能够听出来是电脑“合成”的声音，效果还是不够自然，期待后续迭代更新。

speech_prodcut6

三，服务端Python SDK 测试

3.1，下载安装

按照以下脚本下载 SDK 并安装在服务端电脑。

# 1,下载Python SDK。
git clone https://github.com/aliyun/alibabacloud-nls-python-sdk.git
# 2, 安装SDK依赖: 进入SDK根目录使用如下命令安装SDK依赖
python -m pip install -r requirements.txt
# 3, 安装SDK包: 依赖安装完成后使用如下命令安装SDK
python -m pip install .
# 4，安装完成后通过以下代码导入SDK。
import nls

注意上述脚本命令均需要在SDK根目录中执行。

安装完 nls 包后，进入 python 解释器环境，如果 import nls 代码能运行成功，则说明 sdk 安装完成，如下图所示。

speech_python_sdk

四，产品使用总结

个人感觉阿里智能语音交互产品的精度还是很高的，通过 sdk 的方式嵌入在其他代码中也很方便，可以应用在工业界产品中，比如智能音箱。

虽然有诸多优点，但再完美的产品也是缺点的，以下是我测评之后总结的一些可以考虑改进的点：

SDK 文档描述不够清晰，给出的代码示例不够丰富，且注释很少
语音合成效果可以更自然些

参考资料

智能语音交互产品-管理项目

猜你喜欢

SpringBoot2整合Junit4和Junit5
spring循环依赖上篇- spring整体启动流程
Mac IDEA 最常用快捷键（详解版）
不知道如何分库分表，看完这篇文章，轻松应对工作面试
EMQX 入门实战(2)--MQTT Java 客户端库使用
【Java面试】为什么引入偏向锁、轻量级锁，介绍下升级流程
01-继承和抽象类
文件输入输出处理(一)-File
【翻译】Spring Security抛弃了WebSecurityConfigurerAdapter
探针技术-JavaAgent 和字节码增强技术-Byte Buddy
面试官：IO 操作必须要手动关闭吗？关闭流方法是否有顺序？
第十到第十六周—— BLOG_3
WPF学习笔记(窗体和常用容器的使用)
装上这几个Intellij idea插件，保证让你爱上写代码
分享一个基于 netty 的 java 开源项目
Java实用类(一)-Enum(枚举)
【Java面试】请简单说一下你对受检异常和非受检异常的理解
java实用类(四)-Date 和 Calendar
阿里云智能编码插件进行了一个上新大动作
token和jwt

zl程序教程