latendy controlled 的 BLSTM

必须要等到一句话说完了才开始去做解码,得到结果,就造成说完这句话后要等很久才能拿到结果,这当然是坏处,但为什么大家还是那么着迷呢,因为好处是精度特别高,准确程度高。

我们做的工作就是能够把识别的延迟降下来,使得它能够在边说话就边解码,而不是像以前一样,要等到这句话结束后才能够进行解码,达到一个既快又好的效果。

参考: 15 年的时候,阿里 latendy controlled 的 BLSTM 模型,叫 LC-BLSTM 模型

Low frame rate latendy controlled 的 BLSTM

原来语音识别的帧率大约是 100 帧每秒,每秒钟要计算100个 frame,运算量不容忽视,所以我们去年有一个方法叫 Low frame rate,把 100 帧每秒的速率,降到三分之一,相当于同样是 1 秒钟的语音,处理起来只需要原来运算量的三分之一了。同时保证了跟以前一样甚至更好的精度。