基于HMM统计参数的语音合成是在训练过程中建立文本参数,如韵律参数、普参数和基频参数的映射模型,通过决策数聚类的方法对每一个上下文相关的文本特征构建GMM模型,训练其GMM模型,在合成时对输入文本预测出它的GMM以后,通过参数生成算法,生成语音参数然后再输出语音。在这个过程中,有三个地方会产生语音音质的下降,第一是决策树的聚类,第二是声码器,第三是参数生成算法,针对这三个问题,我们接下来看看各位研究者提出的解决方法。 针对决策树聚类的问题,我们可以将里面的HMM决策树据类变成一个DNN模型,文本参数到语音参数的一个映射可以很容易通过DNN来实现,而且在实验效果会比决策树好一点,但是并没有达到我们理想中的那种很惊艳的一些结果。 除了DNN,RNN也用到了统计参数语音合成中,而且RNN里面单元采用LSTM模型,我们可以把参数生成算法这个模块从统计参数语音合成中去掉,这样在基于LSTM-RNN中直接预测出语音参数,通过声码器就可以合成语音,跟RNN-LSTM预测出一阶二阶统计量以后,采用参数生成算法,生成语音参数合成语音的话效果差不多,所以RNN-LSTM可以把里面的参数生成算法给去掉。 最近几年大家在这方面声码器问题上做了很多工作,比如WaveNet其实也属于声码器的模型,建立一个现今预测的模型,通过前面采样点预测出后面的采样点,但是存在几个问题:比如刚开始速度比较慢,这个问题后期被很多公司都解决了,而且它并不是一个传统的vocoder,需要文本参数作为它的输入。它有好处是在输入过程中,可以很容易的在后端控制说话人的特征,比如不同说话人情感特征这些属于外部特征我们都可以进行很好的加入。 还有一个比较成功的是百度的Deep Voice,它将里面的很多模块用深度神经网络去实现,而且做到了极致,这样我们在最后通过类似WaveNet的合成器来合成,效果也是比较理想的。 下面两个端对端的语音合成,第一个是Char2Wav,这个模型是直接对输入的文本他进行编码,采用的模型。对输入的直接对输入的叫字母进行编码,然后生成中间的一个编码信息放到解码器里进行最后的合成,合成采用SimpleRNN的合成器来合成语音,效果也是比较理想的,而且是纯粹的End-To-End的一个语音合成模型。 再一个是谷歌提出的端对端的语音合成系统,它跟Char2Wav比较类似,输入的也是Embeddings,合成更加直接比RNN更好。 语音合成前期工作主要放在前端文本分析上,因为我们在听感上可能更关注,但是如果有一些很好的End-to-End的模型出来以后,文本分析的工作并不是很重要,我们也可以在后端中加入一些文本分析的结果进行预测,这即是一种尝试,也是一种很好的办法。现有的合成器的音质不再首先考虑我们采用哪种声码器,我们采用直接生成的方法在实域上直接进行合成。语音合成更重要的是一些音库,我们不能忽略音库在语音合成中所占据的位置,以及它的重要性。目前,极限元智能科技语音合成定制化支持录音人选型、录音采集、语料标注,还能实现模型迭代训练、合成引擎优化,支持在线、离线模式,适用多种平台。 说话人识别技术的研究进展 (责任编辑:本港台直播) |