1)先从label提取70多种特征(5因子,声调,前后信息等等),再又HMM提取一个粗糙的时长模型定位字的大致范围。
2) 对语音提取频谱特征和基频特征
3) 声学训练对齐,HHM状态为语言特征序列,单高斯为频谱特征
4 )参数生成过程为 :已知模型参数a,求P(O|a),频谱参数。具体地,phone经过决策树查询聚类的均值和方差,然后求P(O|a)。