基于百度AI平台的语音识别功能开发-SDK调用
2023-09-14 09:01:25 时间
一、前期工作
1.拥有一个百度智能云账号
2.创建一个语音应用,创建成功后会显示有一个应用
3.在应用列表里查看自己的应用
强调:
这里的AppID、API Key、Secret Key 很重要
百度除了语音识别等其余的api调用也离不开这三个重要的参数。
二、调用百度语音SDK,基于python3
操作流程:
1.下包
我使用的是pip install baidu-aip
2.新建AipSpeech
from aip import AipSpeech
""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
3.配置AipSpeech(一般不需要)
4.请求说明
以识别本地语音文件为例,假设本地有个语音文件是audio.pcm:
# 读取文件
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
# 识别本地文件
client.asr(get_file_content('audio.pcm'), 'pcm', 16000, {
'dev_pid': 1537,
})
注意:
1.本地语音文件的后缀名要和后面的参数一一对应
2.音频的采样率固定为16000/8000,不符合此采样率的音频识别不出来
3.语音文件的格式支持pcm / wav / amr
// 成功返回
{
"err_no": 0,
"err_msg": "success.",
"corpus_no": "15984125203285346378",
"sn": "481D633F-73BA-726F-49EF-8659ACCC2F3D",
"result": ["北京天气"]
}
// 失败返回
{
"err_no": 2000,
"err_msg": "data empty.",
"sn": null
}
更多详情请见
百度语音识别官网技术文档(https://cloud.baidu.com/doc/SPEECH/s/1k4o0bmc7)
相关文章
- 华为云文字识别深层算法突破 助力复产复工
- python实现百度OCR图片识别
- Atitit 人工智能 统计学 机器学习的相似性 一些文摘收集 没有人工智能这门功课,人工智能的本质是统计学和数学,就是通过机器对数据的识别、计算、归纳和学习,然后做出下一步判断和决策的科学
- MAT之ELM:ELM实现鸢尾花(iris数据集)种类测试集预测识别正确率(better)结果对比
- DL之DNN:利用DNN算法对mnist手写数字图片识别数据集(sklearn自带,1797*64)训练、预测(95%)
- 已解决Python调用免费申请的百度图形识别接口案例
- pytorch实现人脸表情识别
- Modelarts与无感识别技术生态总结(浅出版)
- 用Python识别验证码
- m基于GRNN广义回归神经网络和HOG特征提取的人体姿态检测识别matlab仿真,样本集为TOF深度图
- Python编程:通过百度文字识别提取表格数据
- 无法识别的属性“targetFramework”。请注意属性名称区分大写和小写。错误解决的方法
- malloc 函数本身并不识别要申请的内存是什么类型
- python实战===百度文字识别sdk
- 行人重识别02-04:fast-reid(BoT)-pytorch编程规范(fast-reid为例)1-hooks机制了解
- DL之CNN:基于CRNN_OCR算法(keras,CNN+RNN)利用数据集(torch,mdb格式)训练来实现新图片上不定长度字符串进行识别—预测过程
- 基于MFCC特征提取和神经网络的语音信号识别算法matlab仿真
- Qt数据库应用22-文件编码格式识别
- C# OCR 文字识别