这个研究的难点是什么?有人说很简单,拿语音信号直接对应嘴部运动就可以了。但人的声音很有意思,不同人在发同一个音的时候,发出的声音信号可以看起来一点都不相似,这是第一个难点。第二个难点是,语言学家和声学学家研究发现人说话的时候有一个很重要的东西——协同发音(Co-articulation)。就是指当发同一个音的时候,根据前后音的不同,嘴的形状会完全不同。这就意味着光靠一个音是不行的,我们必须知道前后的词语和语句,才能决定嘴型。 第三个难点是,不同的人,人脸的形状是不一样的,所以嘴形的运动可能也不太一样。如果想做一个与用户无关的系统,那么如何有效地建造从语音到唇型的模型? 对此,我们的方法是借助三个模型。 第一,用实时的DNN模型来处理语音,从语音中抽取一个与用户无关的音频特征。 第二,是用多元线性面部模型(multi-linear face model),抽取一个与用户无关的表情特征。 基于这两者,我们希望最后来构建一个从语音到唇型变化关系的模型。有了这样的模型之后,新的用户来使用时,我们首先根据视频来恢复他人脸的三维形状,再根据他的音频来重建他的唇型。模型会按照重要程度和可信程度来进行叠加,之后生成最后的结果。使用我们的这个方法,也第一次做到当人的嘴巴被遮住时,我们同样可以恢复嘴部的运动,如果能从音频里再恢复一些情绪特征,模型甚至可以做一些表情来。 以上,我们讲了数据驱动的方法以及一些图形学的应用。但实际上这个领域的研究才刚刚开始,我们还面临着很多挑战。首先,如何产生高质量的数据还是一个很大的问题;第二,比如做绘制的时候,针对每一个场景,我们都需要训练一个神经网络模型,未来我们希望可以训练一个更通用的、与场景无关的模型。第三,在做造型或者生成图形应用时,如何把用户的意图通过学习的方法注入到系统里,让系统更加自动。我们也欢迎大家加入到研究中来,和我们一起努力达到我们的愿景! 谢谢大家! (本文来源微软研究院AI头条,特此感谢!) 3月27日,新智元开源·生态AI技术峰会暨新智元2017创业大赛颁奖盛典隆重召开,包括“BAT”在内的中国主流 AI 公司、600多名行业精英齐聚,共同为2017中国人工智能的发展画上了浓墨重彩的一笔。 文字实录: 访问以下链接,回顾大会盛况: 阿里云栖社区: (责任编辑:本港台直播) |