离线状态下的端到端语音转文本关键技术研究
所属领域: 电子信息 所在地:
需求类型: 发布人: -
联系人: 丰雪 联系电话 0431-81877662 15543091354

技术难题的应用领域:

离线语音识别是语音数据在不上传网络的情况下,通过公司内部服务器对自有语音进行建模并且完成识别,在完成语音识别的同时更有利于数据的隐私保护。

目前所处水平等级:

完成部分数据的语音标注,已购买部分语音资源,简单实现了小规模语聊的语音训练流程。

技术需突破难点:

大语料情况下语音模型的建立和识别模型结构的优化,抗噪性和鲁棒性的识别需求。

需请专家支持或解决的问题:

训练拥有自主知识产权的语音识别模型,具有一定的抗噪性和鲁棒性的能力。

需要解决关键技术难题:

1)离线状态下端到端语音识别模型结构的优化。

尽管在线的端到端语音识别模型已经有了一个很高的识别率,但是在离线状态下语音识别效果仍然不理想。存在着抗噪声能力差、参数量大、对过短或过长的句子识别效果差等问题。因此对端到端语音识别模型结构的优化,特别是对其中的自注意力机制模块的优化,是本项目的一个技术难点。

2)抗噪性和鲁棒性的优化。

由于语音识别易受周围环境噪声的影响,因此需要探究端到端语音识别系统的抗噪算法,增强端到端语音识别系统的鲁棒性,这是本项目的一个关键技术。

技术参数:

词错率,识别时间与音频时间的比值(RTF),训练时间。

相关指标描述:

词错率在AISHELL测试集上不高于6%,在WeNet验证集和测试集上不高于10%,在Test_Meeting数据集上不高于20%。RTF:在配置CPU为AMD EPYC 7543,内存112G,4块NVIDIA A5000硬件条件下识别结果返回不高于500毫秒。训练时间:在以上配置情况下,对1万小时语音的建模时间小于2周。