TDNN时延神经网络

CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。

1989年
本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别”B”, “D”, “G”三个浊音中得到98.5%的准确率,高于HMM的93.7%。是CNN的先驱。

简介

时延神经网络(Time delay neural network, TDNN)是一种多层神经网络,主要用来

  1. 区分平移不变的特征
  2. 在每一层建模上下文信息
  1. using a 3 layer arrangement of simple computing units, a hierarchy can be constructed that allows for the formation of arbitrary nonlinear decision surfaces.

模型

设计思想

  1. 要有多层,而且每层的units之间要有充分的交互
    1.

输入特征拼起来。前后10帧。另外一个思路:把DNN每一层之间建立一个联系,下一层的输入,不仅由上一层当前时刻输出,还把上一层前后输出都考虑。采用拼接的方式,增加了模型复杂度,可以拆分成两个矩阵。类似LSTM。

模型架构

TDNN 的 units 独立于时间位移(i.e. sequence position)识别特征,通常用于组建一个更大的模式识别系统。例如,将连续的音频转换为分类号的音素(phoneme)标签 stream 来做语音识别。

一个输入信号用延迟的复制s增强(augmented)作为其他输入,神经网络是时移不变的,因为它没有内部状态。

相关进展

TDNN+chain-model。。

16年,povey在kaldi的nnet3中增加chain-model。

FAQ

DNN网络可以用1维卷积实现吗?

把输入序列当成16通道1xn的图片即可。

扩展阅读