语音识别技术的发展趋势就是应用场景越来越丰富。
在过去的两年中,自动语音识别在商用上取得了重要的发展,其中一个衡量指标就是多个完全基于神经网络的企业级ASR模型成功上市,如Alexa、Rev、AssemblyAI、ASAPP等。2016年微软研究院发表了一篇文章,宣布他们的模型在已有25年历史的Switchboard数据集上,达到了人类水平。
随着ASR技术的识别准确度大幅提升,同时应用场景越来越丰富,我们相信现在还不是ASR商用的巅峰,该领域的研究与市场应用还有待发掘。预计未来十年AI语音的相关研究和商业系统将重点攻克以下五个领域,如多语言ASR模型、丰富的标准化输出对象、面向所有人的大规模ASR、人机协同以及负责任的ASR等。
语音识别基础
语音识别是涉及心理学、生理学、声学、语言学、信息理论、信号处理、计算机科学、模式识别等多个学科的交叉学科,具有广阔的应用前景,如语音检索、命令控制、自动客户服务、机器自动翻译等。当今信息社会的高速发展迫切需要性能优越的,能满足各种不同需求的自动语音识别技术。
对于自动语音识别的探索,实际是早于计算机的出现的,早期的声码器可看作是语音合成和识别技术的雏形,20世纪出现的Radio Rex玩具狗也许是人类历史上最早的语音识别机。现代自动语音识别技术可以追溯到上世纪50年代贝尔实验室的研究员使用模拟元器件,提取分析元音的共振峰信息,实现了十个英文孤立数字的识别功能。