码报:【避免AI错把黑人识别为大猩猩】伯克利大学提出(2)_本港台直播_J2开奖直播

价值对齐问题（value alignment problem）是将AI的目标与我们的目标对齐的问题。这个问题具有挑战性的原因，在于我们很难描述我们想要什么，甚至描述给其他人都很难，更不用说描述给AI。我们通常假设，正如上面的例子中，我们的目标是已知而且可观察的。

反向强化学习

解决这个问题的一个灵感是反向强化学习（inverse reinforcement learning）。在人工智能研究（例如强化学习）中，我们主要关注计算最优（或者只需OK）的行为。也就是说，给定一个奖励函数，我们来在计算一个最优策略。在反向强化学习中，所做的工作正相反。我们需要观察最优行为，然后尝试计算智能体正在优化的一个奖励函数。这可以引出价值对齐的一个粗糙的策略：让智能体观察人类行为，通过反向强化学习，智能体学习人类的奖励函数，并根据该函数行动。

这个策略有三个缺陷。第一个很简单：机器人需要知道它是为人类来优化奖励：如果机器人知道某人想要咖啡，它应该为这个人去取咖啡，而不是为自己去取咖啡。第二个挑战有点难解释：人是策略性的。如果你知道机器人正在观察你，以图学习你想要的东西，j2直播，那么这会令你改变自己的行为。你可能会夸大任务的步骤，或展示常见的错误或陷阱。这些类型的合作教学行为不是简单地用反向强化学习来建模的。最后，反向强化学习是一个纯粹的推理问题，但是在价值对齐中，机器人必须共同学习其目标，并采取措施来实现。这意味着机器人在学习过程中必须考虑“探索-开发”的权衡。反向强化学习对于如何平衡这些没有提供任何指导。

协同反向强化学习

我们最近与Human-compatible AI 中心一起完成的工作介绍了正式的、用于价值对齐的问题，我们将这些差异称为协同反向加强学习（CIRL）。

码报:【避免AI错把黑人识别为大猩猩】伯克利大学提出

CIRL用一个包含两个玩家的游戏正式地将价值对齐。一个人类玩家，我们称之为Alice，一个机器人玩家，我们称之为Rob。以前都是Rob对一些特定的回馈函数进行优化，这次，我们让两个玩家一起合作，完成共同的目标，比如制作咖啡。重要的是，只有Alice 知道这个目标，因此，Rob的任务是学习目标（例如，通过与Alice进行沟通或观察），并采取措施帮助完成此任务。这个游戏的解决方案是一个合作策略，描述了Alice 和Rob如何相互作用和响应。 Rob会解释Alice做了什么，来更好地了解目标，甚至采取行动来澄清。反过来，Alice将采取行动，让Rob能更方便地进行协助。

我们可以看到这与反强化学习有着密切的联系。 Alice 根据一些回馈函数进行优化，在帮助她的过程中，Rob将会学习Alice正在优化的功能。关键的区别是，Alice知道Rob正在努力提供帮助，这意味着最佳的合作策略将包括Alice的教学行为，并确定罗布管理 exploration-exploitation 权衡的最佳方式。

未来的工作

与CIRL的合作之后，我们认为机器人对于什么是正确的回馈功能应该是不确定的。

在即将在2017年IJCAI上发布的研究中，我们调查了这种回馈不确定性对最佳行为的影响。 “The Off-Switch Game （开关游戏）”分析了机器人接受人的监督或干预的动机。我们用一个CIRL游戏来建模，其中Alice可以关闭Rob，但Rob可以禁用关闭开关。我们发现，Rob对Alice的目标的不确定性是听取她的激励的关键组成部分。

然而，正如弥达斯国王的故事所说，我们人类并不总是完美地下令。可能有些情况下，我们想要Rob按照Alice心里真实的想法进行行动，而不是她所说的。在“机器人应该服从吗？”中，我们分析了Rob的服从水平（遵循Alice 命令的速度）与Alice可以产生的价值之间的权衡。我们表明，至少在理论上，如果Rob可以不服从Alice，Rob可以更有价值，但是还要分析Rob的对世界的建模是错的，那么性能会如何降低？

在研究价值对齐问题时，我们希望为可靠地确定和追求我们所期望的目标的算法奠定基础。从长远来看，我们预计这将带来更安全的人工智能设计。我们的方法的关键在于我们必须考虑到真正的回馈信号的不确定性，而不是给予奖励。我们的工作表明，这导致AI系统更愿意接受人为的监督，并为人类使用者带来更多的价值。我们的工作还为我们提供了一个工具来分析偏好学习中的潜在缺陷，并调查模型错误带来的影响。未来，我们计划探索针对CIRL游戏的计算解决方案的有效算法，以及考虑对多个人的价值对齐问题的扩展，这些人每个都有自己的目标和偏好。

(责任编辑：本港台直播)