2016年Google发布的Wavenet语音合成系统。

Wavenet的系统架构非常有意思,融合了dilated CNN,残差网络,CTC,LSTM中的门,1*1卷积核等经典结构:

  1. CTC可以说是现在端到端语音识别系统的标配,它解决了文本序列和神经网络模型输出的一对多映射问题,因此可以搭建端到端系统。
  2. 11卷积核的研究最早见于14年的论文Network In Network,后来谷歌在Inception的模型中发扬光大。它的作用是整合多通道信息进行非线性变换,并且可以进行通道升降维(卷积核都有升降维的左右,但11卷积核的优点是参数更少),因此在神经网络模型中可以跳跃链接(见Residual部分,匹配相连层的通道数)。
  3. 残差神经网络结构的核心是将之前的输入跳跃连接到n层后的输出,可以解决深层网络的梯度弥撒问题;Wavenet模型采用分block策略,每个block的输入和输出相加,然后再作为下一个block的输入,每层包含128。
  4. 经典的门结构见于LSTM模型,可以对输入信息进行有效选择,应用在长距离(长时)有效信息相关性的架构中,比如自然语言处理。
  5. dilated CNN模型可以增加卷积核的感受野,利用更长距离的上下文信息:

程序实现中,采用的策略有:

  1. Xavier权值初始化策略;
  2. 每次epoch的数据随机打乱策略;
  3. Batch Normalization策略;
  4. 因为硬件资源GPU的限制,目前只实现了3个block,每个block包含五层dilated卷积层;
  5. 采用Adam参数学习策略。

扩展阅读