文中利用Eesen 框架声学建模简化了现有的自动语音识别( ASR) ,通过训练单个递归神经网络( RNN) 来预测上下文无关的目标( 音素或字符) 。为了消除对预生成帧标签的需求,采用了连接时间分类( CTC) 目标函数来推断语音和标签序列之间的对齐。同时,采用基于加权有限状态换能器( WFST) 的广义译码方法,将词汇和语言模型有效地整合到CTC 译码中。实验结果表明,与混合HMM/DNN 模型相比,所提方法具有较低的误码率( WER) ,同时显著加快了译码速度。