说到对常识的学习,就把图像和自然语言处理结合到一块了。以前自然语言处理和图像识别是相对来说比较独立的,一个主要的问题是,自然语言处理是一个比较偏符号化的运算,很难把每一个符号,把那些词能够真正的和我们在真实世界里面能够看到的东西联系起来。我们做了这样一些工作:第一个就是看图说话,机器在看到这一幅图的时候,就给出对这幅图一个比较贴切的描述,说这是一辆火车沿着森林旁边的铁轨走过。第二个例子就引入了问答这么一个环节,可以通过问答这种方式,能够更直观的确认我们看看是不是机器真正理解了这个图像和理解了语言。第三个例子是通过对视频进行描述,在这个地方,机器看了视频以后就可以说,这是一条狗在盆里面玩。玩这个概念是一个非常宽泛的概念,如果只是通过纯粹的文字来说的话是非常难以精确描述的。像这样的一些比较模糊,或者比较常识性的一些概念,当我们有了这样的图像,通过把图像这样一种包含大量信息的数据结合在一块,就能够得到一个比较好的学习。
现在深度学习还有另外一个局限性:很多的成功应用还是基于标注好的一些标注数据来学习,每个样本还有它对应的标注。实际上对于人来说,很多的学习实际上完全不是这样的,我们不是说给你一堆标注数据,让你自己去想到底应该是什么样的规律。比如我们这个地方,如果要辨别这两只鸟,对于人来说,我们学习的过程就是,会根据以前人类的知识,总结出这只鸟的尾巴和那只鸟的尾巴长短会有些不一样,以前的经验还会总结出这两种鸟的头部会有一些不同的斑纹。人类在接受了这样语言的描述以后,就可以非常快的学习。进一步再看几个例子,就可以很快的学习了。现在机器还没有办法把人通过语言来传递的这种知识和标注数据能够有机的结合来进行学习。
我认为人工智能一个比较核心的学习能力就是需要能够通过语言来学习,因为语言是人类知识传承一个最重要的途径之一,人类过去积累的知识一个方面是通过我们口头的语言,还要通过书面的语言来传承。另外一方面,如果我们真的要有一个对人类有用的人工智能的系统,我们需要能够用语言对它提出我们的需求。相应的需要机器能够通过语言,把它所做的事情对人类做出反馈。 特定领域的智力能力,不是通用人工智能研究最重要的东西
我们需要一个什么样的研究环境才能够做这样一个通用人工智能的研究呢?有几个方面。首先是我们需要有非常充足的计算资源,只有有了非常大量的计算资源,我们才能够有可能去实现一些比较复杂的模型,并且能够在我们可接受的时间范围内,合理的范围内去对那些模型进行实验。除了这个充足的计算资源以外,还有一个非常重要的就是非常易用的软件环境。我们可以想像得到,通用人工智能这样的一些技术研发会涉及到非常复杂的一些模型和技术,我们需要有非常方便好用的软件开发的环境,才能够让我们的研究者非常高速有效的,不断的尝试一些新的模型和算法。在此基础上,我们还需要人工智能各个不同学科方向的紧密结合,才能够把通用人工智能这个研究的终极目标做出一些实际性的进步。 (责任编辑:本港台直播) |