近年来,隐于无形的云计算逐渐深入人心,然而云与端的距离却为云计算的听说读写带来了新的挑战,人与云的互动既需要人与端的交互,也需要端与云的互联。 在微软AI讲堂哈尔滨工业大学站上,微软亚洲研究院资深研究员吕岩博士分享了多媒体计算、智能计算与云计算的相互关系,并通过两个项目详细说明了如何通过多媒体计算与智能计算为云计算带来自然的听说读写能力。 下面就让我们一起回顾一下吕岩博士的演讲——云计算的听说读写。
演讲全文如下(文字内容有精简) 各位老师同学,大家好。我是吕岩,在微软亚洲研究院主要负责多媒体计算方向的研究。今天主要想跟大家分享一下如何通过多媒体技术和人工智能技术推动人与云的交互,带来一种更新的计算体验,甚至推动计算技术的演进。 我在做硕士课题的时候有一些研究成果(如上图),当时做的是面部表情的识别。大家可以看到,这些表情都非常夸张,有很多表演成分在里面。为什么这样?主要是当时的数据样本很少,采集图像的难度非常大,而我们自己又很难模拟出自然的情绪表情。而今天,因为互联网上有很多表情自然的图像,通过深度学习,已经可以极大地提高识别精度了。下面,我想跟大家分享一下识别算法背后的东西。 面部表情识别只是计算机理解人的行为的一部分,对于计算机来说,真正和人打交道的是多通道的人机交互和用户界面,也就是计算机的输入与输出。 除了传统的键盘鼠标等输入,语音和图像的输入也变得越来越普及。例如,通过语音识别,可以让机器听懂人的命令。通过视频输入,可以让机器识别人脸以及表情等,也就有了看和理解的能力,我们把这种能力称为读的能力。 前面强调的都是输入,对计算机来说,输出也很重要。计算机的输出通常指音视频的输出,例如通过语音合成技术,可以让机器具有说的能力,通过屏幕渲染,可以让机器具有写的能力。我们认为,写就是让机器输出视频,其背后可以是非常复杂的图形渲染过程。 机器的听说读写代表了自然的人机交互,而人机交互是通过用户界面实现的。用户界面对应着对音视频等多媒体数据的处理,所以可以把人机交互抽象为对音视频等多媒体数据的处理。 再来看一下云计算环境下的人机交互。人总是通过客户端与机器进行交互,客户端既包括PC、平板电脑和手机等常见设备,也包括智能电视、智能电器等其它的应用电器。云与端通过网络连接,可以实现存储与计算的共享。 存储与计算背后对应的也是数据的处理,例如计算,就是对代码和程序的执行过程。用户界面也对应于对音视频等多媒体数据的处理,atv,而这个处理的过程,既可以在端做,也可以在云里做。所以说,云计算的听说读写,就是在云里对用户界面所涉及到的多媒体数据进行处理。大多数用户界面需要实时处理,具有低延迟的反馈,因此需要云与端的同步,而多媒体技术是实现云与端同步的关键。所以说,多媒体技术不仅仅可以给用户带来视听的享受,还可以推动计算技术的演进,甚至是一场革命。 今天主要想跟大家分享两个项目,一个是云中的屏幕,另外一个是云中的视觉。第一个,主要是把视频作为一种输出,背后的技术包括多媒体技术,还有一些图形渲染的技术;第二个项目主要是把视频当成一种输入的数据来看待。 云中的屏幕这个项目我们已经做了大约十几年了,但是我认为直到今天,相关的研究内容还是很有价值的。我们很早的时候就把这种屏幕渲染的工作拿到云端去做,把屏幕扩展成一个更广义的用户的输入与输出的数据。这样,所有的人机交互工作,我们都可以把它抽象成一种对数据的处理,也就是对输入和输出数据的处理。 这个视频实际上是微软在2020年的愿景之一。这里面有很多很多的屏幕,我们可以认为它是计算无处不在,屏幕无处不在的一个场景。 (责任编辑:本港台直播) |