离线状态下的端到端语音转文本关键技术研究-长春工业大学技术转移中心

技术难题的应用领域：

离线语音识别是语音数据在不上传网络的情况下，通过公司内部服务器对自有语音进行建模并且完成识别，在完成语音识别的同时更有利于数据的隐私保护。

目前所处水平等级：

完成部分数据的语音标注，已购买部分语音资源，简单实现了小规模语聊的语音训练流程。

技术需突破难点：

大语料情况下语音模型的建立和识别模型结构的优化，抗噪性和鲁棒性的识别需求。

需请专家支持或解决的问题：

训练拥有自主知识产权的语音识别模型，具有一定的抗噪性和鲁棒性的能力。

需要解决关键技术难题：

1）离线状态下端到端语音识别模型结构的优化。

尽管在线的端到端语音识别模型已经有了一个很高的识别率，但是在离线状态下语音识别效果仍然不理想。存在着抗噪声能力差、参数量大、对过短或过长的句子识别效果差等问题。因此对端到端语音识别模型结构的优化，特别是对其中的自注意力机制模块的优化，是本项目的一个技术难点。

2）抗噪性和鲁棒性的优化。

由于语音识别易受周围环境噪声的影响，因此需要探究端到端语音识别系统的抗噪算法，增强端到端语音识别系统的鲁棒性，这是本项目的一个关键技术。

技术参数：

词错率，识别时间与音频时间的比值（RTF），训练时间。

科技需求