golang 使用科大讯飞进行语音合成与识别

golang 使用科大讯飞进行语音合成与识别,第1张

使用科大讯飞 API 进行语音合成和识别,可识别wav和pcm文件

运行完成后在本地生成test.pcm文件,将srcText内容合成为语音

使用minimp3库进行播放,依赖MinGW64环境,MP3文件最后一段播放有问题,暂时没解决

*** 作方法如下:

我们需要先点击下方的“文件”分类选项,并且选择右上角的“导入文件”功能,讯飞听见导入文件。

打开导入文件的界面之后,大家就可以从手机本地搜索找到需要导入的音频文件,点击即可将其添加到“讯飞听见”,讯飞听见添加音频。

只不过需要注意的是,想将录音转换文字的话软件会收取相应的费用,具体价格标准可以进入个人中心打开“收费标准”页面查看。

1、腾讯云语音识别

如果你的音频文件数量多,时长<5小时,文件大小< 5M,可以选择腾讯云语音识别。这是短语音批量转文字的工具,背靠鹅厂,服务性能稳定。相较于网易见外,它的转化速度更快一些,音频格式更为丰富,支持 wav、pcm、opus、speex、silk、mp3;还能批量转化 10 个文件。

2、讯飞听见

依托科大讯飞的核心语音技术,它的识别准确度高,而且转化速度快,1 小时音频最快 5 分钟出稿!此外,它还支持中英混合模式,就算是对话中夹杂英文专业名词的外企会议录音,也能翻译得一清二楚。支持的格式有 mp3、wav、pcm、m4a、amr、aac、mp4、3gp,8种格式!

3、i笛云听写

专业的音频网盘 APP,也是 AI 语音转文字的一把好手。10 小时的免费转写额度,200 小时的储存空间,足够日常使用。目前支持的音频格式较为常见,有 wav、m4a、acc、mp3。导入文件后,点击【转文字】,即可将录音转为文稿。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12027444.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存