本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【避免AI错把黑人识别为大猩猩】伯克利大学提出(2)

时间:2017-08-20 03:04来源:本港台现场报码 作者:118KJ 点击:
价值对齐问题(value alignment problem)是将AI的目标与我们的目标对齐的问题。这个问题具有挑战性的原因,在于我们很难描述我们想要什么,甚至描述给其

价值对齐问题(value alignment problem)是将AI的目标与我们的目标对齐的问题。这个问题具有挑战性的原因,在于我们很难描述我们想要什么,甚至描述给其他人都很难,更不用说描述给AI。我们通常假设,正如上面的例子中,我们的目标是已知而且可观察的。

反向强化学习

解决这个问题的一个灵感是反向强化学习(inverse reinforcement learning)。在人工智能研究(例如强化学习)中,我们主要关注计算最优(或者只需OK)的行为。也就是说,给定一个奖励函数,我们来在计算一个最优策略。在反向强化学习中,所做的工作正相反。我们需要观察最优行为,然后尝试计算智能体正在优化的一个奖励函数。这可以引出价值对齐的一个粗糙的策略:让智能体观察人类行为,通过反向强化学习,智能体学习人类的奖励函数,并根据该函数行动。

这个策略有三个缺陷。第一个很简单:机器人需要知道它是为人类来优化奖励:如果机器人知道某人想要咖啡,它应该为这个人去取咖啡,而不是为自己去取咖啡。第二个挑战有点难解释:人是策略性的。如果你知道机器人正在观察你,以图学习你想要的东西,j2直播,那么这会令你改变自己的行为。你可能会夸大任务的步骤,或展示常见的错误或陷阱。这些类型的合作教学行为不是简单地用反向强化学习来建模的。最后,反向强化学习是一个纯粹的推理问题,但是在价值对齐中,机器人必须共同学习其目标,并采取措施来实现。这意味着机器人在学习过程中必须考虑“探索-开发”的权衡。反向强化学习对于如何平衡这些没有提供任何指导。

协同反向强化学习

我们最近与Human-compatible AI 中心一起完成的工作介绍了正式的、用于价值对齐的问题,我们将这些差异称为协同反向加强学习(CIRL)。

码报:【避免AI错把黑人识别为大猩猩】伯克利大学提出

CIRL用一个包含两个玩家的游戏正式地将价值对齐。 一个人类玩家 , 我们称之为Alice,一个机器人玩家 ,我们称之为Rob。以前都是Rob对一些特定的回馈函数进行优化,这次,我们让两个玩家一起合作,完成共同的目标,比如制作咖啡。 重要的是,只有Alice 知道这个目标, 因此,Rob的任务是学习目标(例如,通过与Alice进行沟通或观察),并采取措施帮助完成此任务。 这个游戏的解决方案是一个合作策略,描述了Alice 和Rob如何相互作用和响应。 Rob会解释Alice做了什么,来更好地了解目标,甚至采取行动来澄清。 反过来,Alice将采取行动,让Rob能更方便地进行协助。

我们可以看到这与反强化学习有着密切的联系。 Alice 根据一些回馈函数进行优化,在帮助她的过程中,Rob将会学习Alice正在优化的功能。 关键的区别是,Alice知道Rob正在努力提供帮助,这意味着最佳的合作策略将包括Alice的教学行为,并确定罗布管理 exploration-exploitation 权衡的最佳方式。

未来的工作

与CIRL的合作之后,我们认为机器人对于什么是正确的回馈功能应该是不确定的。

在即将在2017年IJCAI上发布的研究中,我们调查了这种回馈不确定性对最佳行为的影响。 “The Off-Switch Game (开关游戏)”分析了机器人接受人的监督或干预的动机。 我们用一个CIRL游戏来建模,其中Alice可以关闭Rob,但Rob可以禁用关闭开关。 我们发现,Rob对Alice的目标的不确定性是听取她的激励的关键组成部分。

然而,正如弥达斯国王的故事所说,我们人类并不总是完美地下令。可能有些情况下,我们想要Rob按照Alice心里真实的想法进行行动,而不是她所说的。 在“机器人应该服从吗?”中,我们分析了Rob的服从水平(遵循Alice 命令的速度)与Alice可以产生的价值之间的权衡。 我们表明,至少在理论上,如果Rob可以不服从Alice,Rob可以更有价值,但是还要分析Rob的对世界的建模是错的,那么性能会如何降低?

在研究价值对齐问题时,我们希望为可靠地确定和追求我们所期望的目标的算法奠定基础。 从长远来看,我们预计这将带来更安全的人工智能设计。 我们的方法的关键在于我们必须考虑到真正的回馈信号的不确定性,而不是给予奖励。 我们的工作表明,这导致AI系统更愿意接受人为的监督,并为人类使用者带来更多的价值。 我们的工作还为我们提供了一个工具来分析偏好学习中的潜在缺陷,并调查模型错误带来的影响。 未来,我们计划探索针对CIRL游戏的计算解决方案的有效算法,以及考虑对多个人的价值对齐问题的扩展,这些人每个都有自己的目标和偏好。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容