2018-05-28

【数据分析篇】thchs30（清华大学中文语料库）

简介

THCHS-30的特点

这部分我们介绍THCHS-30语音库。这个数据库是在2000-2001年记录的，第一个作者是Prof.Xiaoyan Zhu的一个研究生。这个语音库设计的目的是作为863数据库的补充，尽可能提高中文发音的涵盖率。这个新数据库叫TCMSD(清华大学连续普通话数据库），而且变得更加开放。。我们15年前发布了这个数据库，其所有权为Prof.Zhu。后来又更名为THCHS-30，代表清华大学30小时中文语音库。THUYG-30也用了相同的命名规则，这个数据库将会在不就发布。

统计

这个数据集包含以下内容：

数据集	音频时长(h)	句子数	词数
train	25	10000	198252
dev	2:14	893	17743
test	6:15	2495	49085

还有训练好的语言模型word.3gram.lm和phone.3gram.lm以及相应的词典lexicon.txt。

概述

data_thchs30.tgz [6.4G] ( speech data and transcripts )
test-noise.tgz [1.9G] ( standard 0db noisy test data )
resource.tgz [24M] ( supplementary resources, incl. lexicon for training data, noise samples )

解压后:

1
2

thchs30数据量比较小，不需要GPU集群就可以快速完成训练

resource

resource/dict/lexicon.txt

SIL sil
<SPOKEN_NOISE> sil
啊 aa a1
啊 aa a2
啊 aa a4
啊 aa a5
啊啊啊 aa a2 aa a2 aa a2
啊啊啊 aa a5 aa a5 aa a5
阿 aa a1
阿 ee e1
阿尔 aa a1 ee er3
阿根廷 aa a1 g en1 t ing2
阿九 aa a1 j iu3
阿克 aa a1 k e4
阿拉伯数字 aa a1 l a1 b o2 sh u4 z iy4
阿拉法特 aa a1 l a1 f a3 t e4

resource/dict/lexiconp.txt

SIL 1.0 sil
<SPOKEN_NOISE> 1.0      sil
啊 1.0  aa a1
啊 1.0  aa a2
啊 1.0  aa a4
啊 1.0  aa a5
啊啊啊 1.0      aa a2 aa a2 aa a2
啊啊啊 1.0      aa a5 aa a5 aa a5
阿 1.0  aa a1
阿 1.0  ee e1
阿尔 1.0        aa a1 ee er3
阿根廷 1.0      aa a1 g en1 t ing2
阿九 1.0        aa a1 j iu3
阿克 1.0        aa a1 k e4
阿拉伯数字 1.0  aa a1 l a1 b o2 sh u4 z iy4
阿拉法特 1.0    aa a1 l a1 f a3 t e4

resource/dict/extra_questions.txt

sil
a1 ai1 an1 ang1 ao1 e1 ei1 en1 eng1 i1 ia1 ian1 iang1 iao1 ie1 in1 ing1 iong1 iu1 ix1 iy1 o1 ong1 ou1 u1 ua1 uai1 uan1 uang1 ueng1 ui1 un1 uo1 v1 van1 ve1 vn1
a2 ai2 an2 ang2 ao2 e2 ei2 en2 eng2 er2 i2 ia2 ian2 iang2 iao2 ie2 in2 ing2 iong2 iu2 ix2 iy2 o2 ong2 ou2 u2 ua2 uai2 uan2 uang2 ui2 un2 uo2 v2 van2 ve2 vn2
a3 ai3 an3 ang3 ao3 e3 ei3 en3 eng3 er3 i3 ia3 ian3 iang3 iao3 ie3 in3 ing3 iong3 iu3 ix3 iy3 o3 ong3 ou3 u3 ua3 uai3 uan3 uang3 ueng3 ui3 un3 uo3 v3 van3 ve3 vn3
a4 ai4 an4 ang4 ao4 e4 ei4 en4 eng4 er4 i4 ia4 ian4 iang4 iao4 ie4 in4 ing4 iong4 iu4 ix4 iy4 iz4 o4 ong4 ou4 u4 ua4 uai4 uan4 uang4 ueng4 ui4 un4 uo4 v4 van4 ve4 vn4
a5 ai5 an5 ang5 ao5 e5 ei5 en5 eng5 er5 i5 ia5 ian5 iang5 iao5 ie5 in5 ing5 iong5 iu5 ix5 iy5 iz5 o5 ong5 ou5 u5 ua5 uai5 uan5 uang5 ueng5 ui5 un5 uo5 v5 van5 ve5 vn5
aa b c ch d ee f g h ii j k l m n oo p q r s sh t uu vv x z zh

resource/dict/nonsilence_phones.txt

a1
a2
a3
a4
a5
aa
ai1
ai2
ai3
ai4
ai5
an1
an2

resource/dict/optional_silence.txt

sil

resource/dict/silence_phones.txt

sil

数据

ss

2.1 语音信号

THCHS-30是在安静的办公室环境下，通过单个碳粒麦克风录取的，总时长超过30个小时。大部分参与录音的人员是会说流利普通话的大学生。采样频率16kHz，采样大小16bits。

THCHS-30的文本选取自大容量的新闻，目的是为了扩充863语音库。我们选取1000句来录音。表1展示了双音素和三音素的涵盖率，从表中可以看出来THCHS-30的确提高了863数据库的发音涵盖率。

、

这些录音根据其文本内容分成了四部分，A（句子的ID是1~250），B（句子的ID是251~500），C（501~750），D（751~1000）。ABC三组包括30个人的10893句发音，用来做训练，D包括10个人的2496句发音，用来做测试。详细信息如下表：

2.2 附加资源

为了帮助构建一个实用的中文ASR系统，一些附加的资源也随着THCHS-30发布了。这些资源包括发音词典，语言模型，训练方法和一些其他有用的工具。另外还有一些噪声条件下的语音可供使用。

2.2.1 Lexicon 和 LM（发声词典和语言模型）

我们发布了两个语言模型和配套的发声词典。基于词汇的LM包括48k个词汇，而且是基于三音素的。词汇LM的训练用的是一个从中文Gigaword语料库中随机选取的文本集合，训练内容包括772000个句子，总计一千八百万个词汇，一亿一千五百万个汉字。phone LM用了一个比较小的、包括两百万字符的数据集做训练。用一个小的文本数据做训练是因为我们想尽可能少的保留语言信息，这样结果的性能就直接与声学模型的质量有关了。这两种LM用SRILM来训练。