语音方面的人工智能创业公司

  • 思必驰
    • 原阿里iDST语音团队负责人初敏加入思必驰,任北京研发院院长 (中科院声学所->微软->阿里)
    • 语音识别、语音合成、自然语言理解、智能交互决策、声纹识别、性别及年龄识别、情绪识别等
    • 其语音识别、声纹识别、口语对话系统等技术曾经多次在美国国家标准局、美国国防部、国际研究机构评测中夺得冠军
  • 云知声
  • 腾讯AI Lab
    • 副主任俞栋

他们还是非常偏重云端的。地平线的语音则一开始就强调云端+嵌入式

面临的挑战

  • 效率
  • 嘈杂环境 - 鸡尾酒会问题
    • 把手机拿远一点,Siri就gg了。这里主要的原因是人说话的语音信号与手机麦克风所采拾的环境噪声之间信噪比(SNR)较小,噪声影响了正常识别系统的性能,这里的噪声包括环境的背景音,以及声音的混响(reverberation)。
    • 在嘈杂环境下(SNR较小),噪声种类千变万化,导致每种音素的分布在各个方向偏移较大,数据分布变得复杂,使得需要更复杂的分类器,甚至也不一定能区分
    • 解决方法:
      • 前端:使用麦克风阵列采集多个信源的信号,综合分析出噪声和语音;传统的DSP方法对语音信号进行消除噪音处理。另外也有一些信号分离语音增强信号降噪的方法可以做。消噪处理有 降混响,回声消除,声源定位后接馅零处理,基于统计的单麦克风噪声消除,麦克风阵列处理。
      • 平稳的噪声结合基于统计的单麦克风和VAD就很好解决掉,跟人声频谱相叠加的噪音就会很麻烦,麦克风阵列的声源定位和馅零可以解决掉空间上的噪音来源,而对于有参考信号的噪音来源,可以使用回声消除算法消除。
      • GAN
  • 特定场景
  • 语言理解
    • 现在市面上不管哪个语音助手聊天机器人,你跟它聊几分钟你就知道它有多傻了,离真正的理解、对话、交互还差得远,这里有很多事情要做。 — 初敏
  • 系统鲁棒性
    • 数据没覆盖的情况就做不好,
    • 自适应算法

参考