使用传统的软件编辑语音常常涉及到许多低级的人工操作。一些最先进的系统允许用户在语音的转录文本中编辑,并直接在转录文本中执行选择、剪切和粘贴操作;然后这些操作将直接自动应用于对应的声波。然而,对于基于文本的交互界面,一个显然的障碍是编辑转录文本中没有出现过的新词,例如为了强调插入新词或者替换说错的词。虽然当今有很多高质量的语音合成器,面临的挑战在于生成与语音中其它部分相匹配的新词。本论文提出了一种合成新词和短语的系统,该系统能达到新词与语境中其余语音无缝衔接的效果。我们的方法是使用文本到语音(text to speech)的合成器来泛化地生成词对应的语音,然后使用语音转换将其转换为与讲话者相似的语音。操作界面提供了一系列的编辑功能,如支持全自动合成、在一组备选语音中选择、精确控制编辑位置和音高,j2直播,以及甚至通过用户自己的声音操控。本论文的研究结果表明,该方法的输出优于基线方法的输出,并且输出的语音通常难以与原始语音相区分。 更多有关GMIS 2017大会的内容,请点击「阅读原文」查看机器之心官网 GMIS 专题↓↓↓ (责任编辑:本港台直播) |