我们开发了一个模型,这一模型被训练用来完成上述任务。在完成某一任务的每一步里,模型都会提出一个其所认为当前情形下最有效的问题,然后从环境中获取相应的回复,并进一步将所获取的回复与其既有的知识(knowledge)整合。这个模型是一个深度神经网络,通过把强化学习的技巧(具体是:广义优势估计——Generalized Advantage Estimation,Schulman 等人,2016)和反向传播结合起来的方式训练得到。详细内容请参阅该研究的论文。
在训练中,人工智能会寻求奖励最大化,这个最大化奖励包涵多个特定任务的外部奖励和一个任务无关的内部奖励。外部奖励促使人工智能体通过尽量多的问题来获取有效回复,内部奖励促使模型提出能获取环境最新信息的问题。具体来说,我们对每个问题的奖励设置是依据这个问题的回复能多大程度增加模型的认知与世界真实状态之间的相似度。因此,人工智能学会了如何高效的对周围环境构建一个与之对应的精确内部图。 目标:通用人工智能 就如在 demo 里展示的那样,我们的方法所训练出的人工智能体能够成功完成较广泛领域内的任务。同样的方法可以用于语言处理问题、图像处理问题以及决策问题。在我们的任务中,所训练出来的人工智能的行为是具备可解释性的,且这些系统具有智能化的信息获取能力,它们的效率经常超过人类的水平。 我们希望这些研究能为通用智能的发展奠定基础。我们当下的工作只是朝实现这一宏伟目标所迈出的一小步。 相关论文:TOWARDS INFORMATION-SEEKING AGENTS
摘要:我们开发了一种通用问题集用于训练和测试人工智能体收集有效信息的能力。具体来说,它是一系列任务的集合,完成这些任务需要在给定环境中寻找有效信息。同时,开奖,我们将深层架构和强化学习技术整合到一起,构建了用于处理此类问题的人工智能系统。我们通过组合内部和外部奖励机制来塑造人工智能体的行为。我们的研究表明,这些人工智能体可以学会积极、智能化地搜索信息以减少不确定性,并在这个过程中不断利用已有信息。 ©本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |