Hexo

2018-08-16

1）先从label提取70多种特征（5因子，声调，前后信息等等），再又HMM提取一个粗糙的时长模型定位字的大致范围。
2）对语音提取频谱特征和基频特征
3）声学训练对齐，HHM状态为语言特征序列，单高斯为频谱特征
4 ）参数生成过程为：已知模型参数a,求P(O|a)，频谱参数。具体地，phone经过决策树查询聚类的均值和方差，然后求P(O|a)。