2018-08-07

声学模型

语音识别有一个重要的模型叫声学模型，就是来模拟a,o,e,b,p,m,f 是怎么发音的，这个也是提高语音识别准确率的重要手段。

research

BLSTM 模型很慢
2014 - Deep Speech | 百度
2015 - Deep Speech 2 | 百度

CLDNN:
NIN:

第一个前沿问题是如何构建更有效的序列到序列(Sequence-to-Sequence)直接转换的模型，目前最佳的解决方案是把 CTC 与
Attention 结合起来，CTC有持续信息，可根据后面的语音信号生成词，这有助于
Attention生成更好的表达，两者结合比CTC、Attention各自训练效果更好，所以是一个1+1大于2的结果。

当前主流

LSTM、CNN并未占工程主流。没有超过Kaldi最有模型TDNN+chain。（不靠谱的回答）