MFCC 梅尔频率倒频谱系数(MFCCs)

倒频谱

倒频谱(cepstrum),顾名思义,就是将频谱(spectrum)的英文前四个字母反过来写。倒频谱是为了某些时候,为了计算方便,将原来信号的频谱先转成类似分贝的单位,再作逆傅里叶变换,把它视为一种新的信号做处理。倒频谱有复数倒频谱,及实数倒频谱。

倒频谱被定义在1963的论文(Bogert等)。

复数倒频谱与实数倒频谱

梅尔频率倒频谱

梅尔频率倒频谱是倒频谱的一种应用,梅尔频率倒频谱常应用在声音信号处理,对于声音信号处理比倒频谱更接近人耳对声音的分析特性,而梅尔频率倒频谱与倒频谱的差别在于:

  1. 梅尔频率倒频谱的频带分析是根据人耳听觉特性所设计,人耳对于频率的分辨能力,是由频率的”比值”决定,也就是说,人耳对200赫兹和300赫兹之间的差别与2000赫兹和3000赫兹之间的差别是相同的。
  2. 梅尔频率倒频谱是针对信号的能量取对数,而倒频谱是针对信号原始在频谱上的值取对数。
  3. 梅尔频率倒频谱是使用离散余弦变换,倒频谱是用离散傅里叶变换。
  4. 梅尔频率倒频谱系数足够描述语音的特征。