今年8月,中国最著名的时尚博主之一Gogoboi采访了少女时代门面担当林允儿,在采访里,Gogoboi一口流利韩语。再加上在各大时装周上,能够轻松用英文采访欧美时尚Icon,他的语言能力其实已经超出了大部分时尚博主,这也是他在时尚界极为受宠的原因之一。 可其实,随着声音模拟技术的迅猛发展,多语言人才的优势,很可能会不复存在。 记者了解到,位于美国加州的初创企业ObEN,能够提供迅速、准确的电音模拟技术。用户只需要念上两分钟由ObEN指定的文字,他们的电音就能被模拟出来,并且被用在唱歌、朗诵、用一切可以想象到的语言做一切可能的事情。 ObEN团队的另一项三维图像重建技术,还能够迅速地通过一张自拍照片为消费者建立三维人脸模型,让虚拟世界与现实世界之间的距离,更进一步。 ObEN联合创始人Nikhil Jain及Adam Zheng 模拟技术给声音带来无限可能 这项声音模拟技术,有着许多动人的未来蓝图。 比如将家里小朋友的声音记录下来,而这个声音模型,可以一直保留到他长大成人,还可以说新的内容;比如电影在国外放映时,可以使用由明星原声而制作的外文配音,让他们本人的声音也能顺利“出口”;而对时尚博主们来说,别说采访韩国、欧美明星了,就算时尚博主们进军印度、土耳其、甚至非洲,也可以轻松用当地语言进行采访。另外,人们与家人分隔两地时,也可以通过这项技术,在各类智能设备中听到亲人熟悉的声音。天涯若比邻,不再是一种想象。 这些蓝图,让ObEN已经成功和各个行业顶尖的企业达成了合作意向,其中包括与美国最大的玩具公司合作开发智能玩具,跟好莱坞最大的配音公司以及电影公司合作等等。 虽然有了以上各类可预见的蓝图,电音模拟技术,听起来还是有些抽象。具体来说,ObEN是这样做到给消费者的声音提供各种使用方案的。 首先,这项业界领先的技术大大缩短了发声模型的训练时间。也就是说,消费者们只需要花上2-3分钟念出指定的文字,ObEN就能通过人工智能领域的机器学习技术,制作出消费者的专属电音模型。这就像每个人有着独特的指纹一样,ObEN能够通过深度学习,获取每个用户的“声纹” 。 要知道,如今市面上所有的专属发声模型都只有少数人可以体验,并且需要好几天、甚至几周的时间录入数据。 再者,有了这个电音模型,ObEN可以做到让消费者本人的电音,用中文、日语、韩语、乃至世界上任何一种已经存在的语言说话、唱歌、朗诵等等,而非局限于源声音的语言种类及用法。试想,一个完全不懂中文的美国白人,可以用他的自己的电音唱秦腔;一个中国人,也可以听到自己唱出的宝莱坞歌曲了。 除了精进算法以外,使用这个技术的消费者们越多,ObEN的电音模型就会越逼真。 ObEN的声音模拟技术背后,有着UCLA(加州大学洛杉矶分校)以及CalTech(加州理工学院)两所重量级院校的计算机人才们。在决定开发这个技术后,ObEN的两位Co-founder Adam Zheng与Nikhil Jain邀请到了UCLA的声学研究所所长Abeer Alwan以及CalTech的高级计算机科学家Julian Bunn合作开发。这两位教授,以及他们的其他合作伙伴与博士生们,都为ObEN在自主研发声音模拟技术的过程中提供了重要帮助。 声音模拟x新锐科技 更重要的是,如今科技行业里的许多主要方向,也将因为这个技术而更进一步。 首先,各类机器人的拟人化,将因为能够接入真实、可控的声音模型而更加成功。一个具体的例子就是在今年的CES期间,ObEN和凯撒娱乐集团以及微信进行合作,在凯撒娱乐旗下酒店里,提供名为“Ben”的虚拟客服。住在凯撒娱乐集团旗下的LINQ酒店的客人可以通过关注凯撒娱乐集团的微信号,在手机上跟Ben互动——他能够以任何声音或语言来进行回复。 而且,哈工大机器人集团与ObEN合作也在LINQ酒店大堂里提供了迎宾机器人,让虚拟客服Ben“实体化”成了一个看得见摸得着的机器人,客人们可以通过与迎宾机器人的沟通,直接感受到多语言、多声音的机器人提供的便捷服务。 ObEN与哈工大机器人集团合作,在LINQ酒店提供的迎宾机器人 (责任编辑:本港台直播) |