1. 首先了解高层api
  2. training过程再走一遍细节。因为很多依赖高层api
  3. eager走一遍decode,不依赖graph
  4. eager走一遍training,不依赖graph
  • 解码过程
  • bleu原理
  • 各个模型(convseq2seq)分工跑一下源码
  • transformer其他任务
  • 定点化

书君

syllable cldnn是什么?

目前syllable decoder尚未ready

CLDNN = CNN + LSTM + DNN。
根据以往经验是CNN+DNN 优于 DNN(Tara N. Sainath 13年有两篇CNN+DNN ASR的文章),Deep LSTM ≈ CNN + DNN,所以CLDNN也算是一个“自然”的探索。

CNN 相比 DNN 存在计算量过大的问题,所以太深的 CNN 在要求实时解码的ASR场景并不实用;CLDNN = 2 layer CNN + 1 layer LSTM + 2 layer DNN 计算量并不算太大,做到实时解码并不难,业界有些公司上线过 CLDNN 的 ASR 系统。

https://www.zhihu.com/question/59375524

NIN language model

cudnn model是什么?

#