本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】学界 | 普林斯顿与Adobe提出音频编辑技术VoCo:可基于文本插入和替换语音

时间:2017-05-29 11:52来源:本港台现场报码 作者:118KJ 点击:
正在研发中的「VoCo」软件使得添加或者替换语音中的词变得容易,仅仅通过编辑语音的文字转录(tran)。新词将会自动合成到讲话中 —— 尽管这些词并没有出现在录音中。 该系统使

正在研发中的「VoCo」软件使得添加或者替换语音中的词变得容易,仅仅通过编辑语音的文字转录(tran)。新词将会自动合成到讲话中 —— 尽管这些词并没有出现在录音中。

该系统使用一个成熟的算法来学习和重建一段特定的声音。这将会使编辑播客和视频中的解说词更加容易,j2直播,或者在将来,根据联合开发者 Adam Finkelstein 的想法(普林斯顿计算机科学教授),创建更自然的机器人拟人化声音。这将帮助因受伤或疾病失去声音的人借助机器系统重建更自然的声音。

VoCo 的早期版本于 2016 年 11 月发布。相关的研究论文在 Transactions on Graphics 的 7 月刊发表:

运作机理(技术性描述)

【j2开奖】学界 | 普林斯顿与Adobe提出音频编辑技术VoCo:可基于文本插入和替换语音

VoCo 使得人们通过简单地替换计算机屏幕上的文字来编辑语音。该系统将新词插入到原来的语音中。

VoCo 的用户交互界面与其它语音编辑软件相似,如播客编辑软件 Audacity,它有一个声波形式的音频轨道与剪切、复制和粘贴的编辑工具。VoCo 通过音轨的文字转录放大声波,使得用户只需在转录中编辑即可替换或插入音频中没有的新词。当用户输入新词时,VoCo 同时更新音轨,通过连接解说中的语音片段来自动合成新词。

VoCo 基于优化算法,它搜索语音并选择最佳的音素(词的部分发音)组合来建立新词。为此,算法需要寻找单个音素与连接没有突然过渡的语音序列。它也需要使新词无缝衔接到原语句中。语句中不同位置的词在重音和语调的发音上也不相同,因此语境非常关键。

【j2开奖】学界 | 普林斯顿与Adobe提出音频编辑技术VoCo:可基于文本插入和替换语音

高级 VoCo 编辑器可以人工调整音高、振幅和片段时长。新手用户可以从预设的一组音高(底部)中选择,或者录一段自己的声音作为调整音高和时长(顶部)的参考。

关于语境,VoCo 在由转录自动合成的人工声音的音轨中寻找语句 —— 这听起来像机器发出的声音。这段语音在构建新词中起到参考作用。VoCo 在合成音轨中将这段声音与真实的人声相匹配 —— 此技术被称为「声音转换(voice conversion)」,这也是此项目的名称 VoCo 的来由。

为了应对合成词错误的情况,VoCo 向用户提供多个备用词以供选择。该系统也提供高级编辑器来调整音高和时长,以便进一步优化音质。

为了测试该系统是否为高效可靠的声音编辑器,研究人员让测试者听一组音轨,其中一些由 VoCo 合成,另一些为完全自然的人声。有超过 60% 的全自动合成的声音被误认为是真实的人声。

普林斯顿的研究人员正在调整 VoCo 的算法来使合成音更平滑的嵌入到音轨中。他们正扩展系统的能力以便生成更长的短语,甚至根据说话者的声音来生成整个语句。

制作假新闻视频?

【j2开奖】学界 | 普林斯顿与Adobe提出音频编辑技术VoCo:可基于文本插入和替换语音

迪士尼研究项目 FaceDirector 使得编辑视频中的面部表情和声音成为可能。

Finkelstein 建议,VoCo 的一个有用的应用场景为人工智能私人助手,例如苹果的 Siri、谷歌助手、亚马逊的 Alexa 和微软的 Cortana,它的另一个应用场景为利用老电影合成演员的声音。

但是这也会涉及到欺诈问题。它甚至可以合成逼真的假视频。我们可以编辑带有不同表情和嘴唇动作的视频剪辑(例如使用迪士尼的研究项目 FaceDirector)并与相关的假语音和背景声音(噪音和交谈声)相匹配,同时可以借助绿幕(green screen)生成假背景。

普林斯顿的研究生 Zeyu Jin(他的导师为 Finkelstein)将在 7 月份的 ACM SIGGRAPH 会上介绍该成果。该项目由 X 项目基金资助,该基金向工程师提供种子资金用于创新项目的研究。VoCo 由普林斯顿大学的研究人员与 Adobe Research 的科学家 Gautham Mysore、Stephen DiVerdi 和 Jingwan Lu 合作研究。Adobe 尚未公布 VoCo 的商业版本,或任何将 VoCo 整合到 Adobe Premiere Pro(或 FaceDirector)中的计划。

论文:VoCo:音频旁白中基于文本的插入和替换(VoCo: Text-based Insertion and Replacement in Audio Narration)

【j2开奖】学界 | 普林斯顿与Adobe提出音频编辑技术VoCo:可基于文本插入和替换语音

论文地址:

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容