WaveNet

Tacotron
Tacotron 2 (包括一个循环序列到序列特征预测网络和一个改良的 WaveNet 模型)paper

牛建伟:我们现在已有的是一个相对来说比较主流的技术框架。文本处理前端就是利用 NLP 相关算法、资源进行文本的规整,提取词法和语法信息。后端主要集中在参数合成,这一环节比较容易放到嵌入式的端上面进行,因为它的资源量比较小。这样的话 TTS 系统只需要占用几十 MB 的空间,对计算的要求也可控。后端我们用的就是一个相对主流的 BLSTM 模型,这基本上也是各家都在用的。

至于 WaveNet,它相对来说提高了合成语音的自然度,还有舒适度,但是它存在一个问题就是计算量很大。语音是 16K 采样,一秒钟它就要预测 16000 次。当然可以再做加速,但现在加速的效果还没有那么好,现在基本上还是 100 倍的实时率,就是合成一秒钟语音还需要 100 多秒的计算时间。这没办法直接用到产品上面,所以我们还是在追踪 WaveNet 的阶段。

可视化语音分析:深度对比Wavenet、t-SNE和PCA等算法

Gated CNN 跟 9 月份的 WaveNet 其实有点类似,因为它相当于是把显示的那种循环结构改了一下。