一、说明
英伟达的ASR项目的开源版本NEMO。
NeMo非常强大,覆盖了ASR, NLP, TTS,提供了预训练模型及完整的训练模块。其商业版本为RIVA。
开源代码: https://github.com/NVIDIA/NeMo
二、资源入口
效果演示、API接口示例、下载资源,集中于微信小程序:小鹰微智
【不要求注册,不获取个人信息】
三、API调用
python示例:
import requests
password='1869'
url = "http://www.iinside.cn:7001/api_req"
filePath='C:/Users/文/Music/record/me/20210820_006.wav'
data={
'password':password,
'reqmode':'asr_nemo_ch1'
}
files=[
('sound_asr_nemo_ch1',('20210820_006.wav',open(filePath,'rb'),'audio/wav'))
]
headers = {}
response = requests.post( url, headers=headers, data=data, files=files)
print(response.text)
1,password: 公众号【智会无界】回复关键字:asr_nemo_ch1 获取【需先关注】
2,回应示例:
{
“code”: 0,
“data”: “这个还是比较有趣的”
}
如果code为-1,data是错误提示
3,可以用Postman进行测试,注意语音文件的KEY为“sound_asr_nemo_ch1”
四、本地部署
预训练模型可在小程序 小鹰微智中获取链接。
网度网盘提取码:公众号【智会无界】回复关键字:asr_nemo_ch1 获取
API提供的是POST模式, NeMo还支持流式缓冲,实时解码:https://github.com/NVIDIA/NeMo/tree/main/examples/asr/asr_chunked_inference
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)