另一个证据来自我们生活的世界,今天,数据洪流席卷了整个世界。在 YouTube 上,人们每分钟都会上传超过 300 小时的视频;有统计显示,互联网上超过 80% 的数据是图像形式的。看看我们使用的传感器,医院、自动驾驶汽车中的设备正在不断产生图像数据。图像数据对于所有公司来说是最具价值的内容。在 Google Cloud,我们对客户提供所有类型的图像处理服务。对于计算机视觉来说,现在是一个激动人心的时代。在语音识别和深度神经网络的启发下,视觉在过去十年取得了非常多的成就。计算机视觉已从最基础的图像识别发展起来。目前物体识别和图像标注技术已经应用在 Google Photos、自动驾驶汽车等领域。 我认为,计算机视觉接下来更重要的是,视觉在交流和语言等方面占据着很重要的地位,我们讲故事、辨别事物、区分视频类别都是在进行图像识别。将计算机视觉和语言结合在一起会非常有趣。而计算机视觉在生物医疗上的潜力也引人关注。所以,计算机视觉有非常大的机会发挥作用。还有不要忘了机器人,机器视觉和机器人是分不开的,而只要人工智能还在推进,人们就会一直研究机器人。机器人需要知道自己身处何处,这需要强大的感知系统,在这里计算机视觉就能派上用场了。 所以,我认为计算机视觉是机器智能最重要的部分,它也将会改变未来公司的形式。 Dinae Greene:Fernanda,如果计算机视觉是机器学习最有前景的方向,那么你眼中的未来是什么样的? Fernanda Viegas:回到李飞飞的话题,谷歌有很强大的计算机视觉系统。我们会不断使用它,试图探究计算机是如何处理任务的。机器学习接收大量数据,从大量可能性中找到答案。计算机视觉就像用有秘密武器一样可以理解它接收到的图像。我们非常在意其中的原理,其原因在于可解性,可修正性和可教育性。只有当我们理解了机器学习真正的过程,我们才能教育更多的人成为专家。另外,还有一个重要的地方是,通过计算机视觉,我们永远会让工作流程中有人类的参与,这对于系统的可靠性至关重要。 我想给大家讲一个在研究中的小故事。以谷歌翻译为例,谷歌翻译是大量不同语言输入进同一系统经过训练的成果。经过训练后,研究人员逐渐发现了机器学习翻译的原理。此外,我们还发现了没有料到的东西:zero-shot translation,让机器可以在此前未见的情况下进行正确翻译。在实验中,对于研究人员来说最基础的问题是:这个系统是如何解析多种语言数据的?机器学习系统是在内部构建了英语、西班牙语、葡萄牙语的模型吗?还是它将所有一切都混合在一起处理?它或许学会了所有语言的真正意义。我们对此做的是将计算机处理的过程可视化了。 有意思的是,当我们把计算机处理句子的过程可视化时,发现机器学习系统在每个语言同一句话上的相应部位中的高亮位置是一样的。这意味着机器学习学到了所有语言的共同表达方式,换句话说,我们第一次看到了「世界语」的形式。这太棒了,这就像是在看着计算机「大脑」的核磁共振照片一样:看啊,多么震撼。而当我们看到某个语言的高亮位置和大多数语言不同时,我们可以知道这个语言的翻译结果不好。 这就是可视化带来的好处:让我们能更理解机器学习,让它变得更好。在未来,我们要做的事是和李飞飞一起推动人工智能的民主化。我相信,多样性做得越好,我们的技术就越有希望。今天,人工智能还是以工程师为中心,我们正在接纳科学家、设计师等更多群体,他们带来的想法是我们从来没有想过的。有了他们,我们就能开展新的探索。 Dinae Greene:Françoise,我想问你有关语音识别的问题,未来的语音识别将会面临哪些挑战? Françoise Beaufays:在语音识别领域中,我们面临一些需要注意的挑战。在遇到新的声音片段时,我们需要尽快让机器学会理解。例如口吃、深呼吸等现象,这些数据需要被输入到已经训练过的模型中再次对模型进行训练。例如在 Google home 上,即使这样的产品已经出现在消费者的家中,我们仍然需要收集这些产品收集到的数据改进我们的模型。我们进行了大量的模拟、研究,在训练时加入噪音,使用了大量数据。我认为最有意思的是,语音识别设备需要面对多种不同语言,我们希望谷歌的产品可以自动识别所有人说出的语言。稍作思考就会发现,这是一个很大的挑战。 (责任编辑:本港台直播) |