技术难题的应用领域:
离线语音识别是语音数据在不上传网络的情况下,通过公司内部服务器对自有语音进行建模并且完成识别,在完成语音识别的同时更有利于数据的隐私保护。
目前所处水平等级:
完成部分数据的语音标注,已购买部分语音资源,简单实现了小规模语聊的语音训练流程。
技术需突破难点:
大语料情况下语音模型的建立和识别模型结构的优化,抗噪性和鲁棒性的识别需求。
需请专家支持或解决的问题:
训练拥有自主知识产权的语音识别模型,具有一定的抗噪性和鲁棒性的能力。
需要解决关键技术难题:
1)离线状态下端到端语音识别模型结构的优化。
尽管在线的端到端语音识别模型已经有了一个很高的识别率,但是在离线状态下语音识别效果仍然不理想。存在着抗噪声能力差、参数量大、对过短或过长的句子识别效果差等问题。因此对端到端语音识别模型结构的优化,特别是对其中的自注意力机制模块的优化,是本项目的一个技术难点。
2)抗噪性和鲁棒性的优化。
由于语音识别易受周围环境噪声的影响,因此需要探究端到端语音识别系统的抗噪算法,增强端到端语音识别系统的鲁棒性,这是本项目的一个关键技术。
技术参数:
词错率,识别时间与音频时间的比值(RTF),训练时间。
相关指标描述:
词错率在AISHELL测试集上不高于6%,在WeNet验证集和测试集上不高于10%,在Test_Meeting数据集上不高于20%。RTF:在配置CPU为AMD EPYC 7543,内存112G,4块NVIDIA A5000硬件条件下识别结果返回不高于500毫秒。训练时间:在以上配置情况下,对1万小时语音的建模时间小于2周。