最近的工作已经研究了语言如何以更环境未知的方式帮助强化学习智能体。例如,我们已经完成了使用高级任务规范来设计环境不可知的奖励功能来改进学习。此外,情绪分析等技术已经被用于偏移智能体探索,以改善未来环境中的学习。然而,大多数这些技术需要关于环境的附加信息,例如环境中对象类型的描述,可能并不总是可以随时获得。我们的技术通过使用神经机器翻译来学习自然语言行为/状态描述与状态空间的部分之间的关系来降低这一要求。 与我们最密切相关的工作涉及使用深度Q-learning,识别可以帮助强化学习智能体在不可见环境中学习的语言表征。然而,这种技术还需要一些关于要提供的环境的知识,以便学习这些表征。我们的技术不需要提供额外信息,因为所有国家的注释都是由人类训练者生成的。 结论 语言是人类用来泛化许多领域的知识的强大工具。在这项工作中,我们探索如何使用语言来增加机器智能,并使智能智能体能够在未知环境中进一步推广。具体来说,我们展示了如何训练神经机器翻译技术来提供行动建议,以强化学习智能体的广泛性,即使他们以前没有被看到。正如我们的实验所示,这种通用的建议模型使强化学习智能体能够在不可见的环境中快速学习。 此外,这种技术为人类提供了另一种训练智能智能体的方式。通过人类反馈来增强人类演示或批评的能力有可能显著减少训练智能智能体所需的工作量。这使得8个训练智能智能体的任务对人类训练者来说更易接受。这个任务甚至可能在未来被抛给大众,大大减少了个人教练的努力,使这些类型的训练方法更有吸引力。我们希望能够降低人与智能智能体之间存在的语言障碍。通过消除这个障碍,我们希望使人类能够将更复杂的知识迁移给智能智能体,这将使他们能够在不确定的环境中学习更复杂的任务。 欲了解更多信息,欢迎下载论文原文《Guiding Reinforcement Learning Exploration Using Natural Language》。返回搜狐,查看更多 (责任编辑:本港台直播) |