自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模。用于对相邻帧进行时序建模的主流序列模型包括隐马尔科夫模型(Hidden Markov Model, HMM)和连接时序模型(Connectionist Temporal Classification, CTC)。针对这些模型,当前主流的推理方法是帧层面的维特比束搜索算法,该算法复杂度很高,限制了语音识别的广泛应用。深度学习的发展使得更强的上下文和历史建模成为可能。通过引入blank单元,端到端建模系统能够直接预测标签在给定特征下的后验概率。该文系统地提出了一系列方法,通过使用高效的blank结构和后处理方法,使得搜索解码过程从逐帧同步变为标签同步。该系列通用方法在隐马尔科夫模型和连接时序模型上均得到了验证。结果表明,在Switchboad 数据集上,不损失性能的前提下,实验取得了2-4 倍的加速。该文同时研究了搜索空间,候选序列剪枝,转移模型,降帧率等对加速比的影响,并在所有情况下取得一致性加速。