声学模型

语音识别有一个重要的模型叫声学模型,就是来模拟a,o,e,b,p,m,f 是怎么发音的,这个也是提高语音识别准确率的重要手段。

research

CLDNN:
NIN:

第一个前沿问题是如何构建更有效的序列到序列(Sequence-to-Sequence)直接转换的模型,目前最佳的解决方案是把 CTC 与
Attention 结合起来,CTC有持续信息,可根据后面的语音信号生成词,这有助于
Attention生成更好的表达,两者结合比CTC、Attention各自训练效果更好,所以是一个1+1大于2的结果。

当前主流

LSTM、CNN并未占工程主流。没有超过Kaldi最有模型TDNN+chain。(不靠谱的回答)