语音识别 基本框架

流程

1 . 准备声学模型训练数据

  • 音素词典
  • 发音词典
  • 初次模型训练数据
  • 准备开发验证集数据
  • 语音数据增强的方法,借鉴百度Deep speech2中说到的方法进行扩充语料。

细节

$$\begin{split}
W^{*}&=\mathop{\arg\max}{w} P(W|Y)\
&=\mathop{\arg\max}
{w} \frac{P(Y|W)P(W)}{P(Y)}\
&=\mathop{\arg\max}{w} \underbrace{P(Y|W)}{AM} \underbrace{P(W)}_{LM}\
\end{split}$$

上式中W表示文字序列,Y表示语音输入。公式1表示语音识别的目标是在给定语音输入的情况下,找到可能性最大的文字序列。根据Baye’ Rule,可以得到公式2,其中分母表示出现这条语音的概率,它相比于求解的文字序列没有参数关系,可以在求解时忽略,进而得到公式3。公式3中第一部分表示给定一个文字序列出现这条音频的概率,它就是语音识别中的声学模型;第二部分表示出现这个文字序列的概率,它就是语音识别中的语言模型。无论是传统的方法也好,现在火热的深 度神经网络的方法也罢,目前的语音识别架构都没有脱离上面的公式,也就是说都离不开AM和LM。下面分别对这两部分进行介绍

参考

https://www.zhihu.com/question/20398418