虽然没有回馈函数的环境可用于无监督学习,或者用于生成类人的展示,但是,强化学习(RL)需要回馈函数。与Atari游戏不同,我们不能简单地从对内存的处理中读取成功的标准,并且,关于每一个游戏如何储存这些信息,其中还有很多的变量。 幸运的是,许多游戏都会有显示在屏幕上的得分情况,这可以当成是一个回馈函数,只要我们能合理地解释这些分数。虽然现成的OCR(例如Tesseract)在具有干净背景的标准字体上表现很好,但它在许多游戏中常常遇到多样字体,移动背景,atv,动画或遮挡物体等难题。 我们开发了一个基于卷积神经网络的OCR模型,该模型在Docker容器的Python控制器中运行,解析得分(通过VNC自循环维护的屏幕缓冲区),并通过WebSocket通道将其传递给智能体。 我们的得分OCR模型发挥了作用。人类积分等级员提供了分数的上下界限。 OCR模型以每秒60帧的速度解析分数。
浏览器任务 在人类集体的努力下,现在互联网已经被建设成一个关于信息的巨大宝藏,用于人类的视觉消费。Universe 包含了给予浏览的环境,这些环境要求AI 智能体能读、导航,像人类一样使用网站、显示器、键盘和鼠标。 目前,我们的智能体主要学习与常见的用户交互元素(如按钮,列表和滑块)进行交互,但是将来他们可以完成更复杂的任务,例如在互联网上查找他们不知道的事情,管理电子邮件或日历,完成Khan Academy课程,或者完成亚马逊 Mechanical Turk 和CrowdFlower 等任务。 Mini World of Bits 我们首先计划创建一个新的基准,能在一个简单的设定下,捕捉浏览器交互中的一个的一个显要难题。我们把这个基准称为 Mini World of Bits. 我们认为这可以跟MNIST类比,并且认为,能够掌握这些环境为模型和训练技术提供了有价值的信息,这些技术将在整个网站和更复杂的任务上有良好的表现。我们最初的Mini World of Bits 基准包括80个环境,从简单(例如,点击特定按钮)到困难(例如,在模拟电子邮件客户端中回复联系人)都有。
现实世界中的浏览任务。我们已经开始在更加具有现实意义的浏览任务上进行研究。智能体在获得一份说明书后,开始在网页上执行一系列任务。一个这样的环境交给智能体一个具体的任务:预定航班。要求其操纵用户界面以搜索航班。 (我们使用这些网站的缓存记录,以避免发送垃圾邮件,或预订大量真实的航班)。
未来的融合 这种基础设施是通用的:我们可以集成任何可以在Docker容器(最方便)或Windows虚拟机(不太方便)中运行的游戏,网站或应用程序。我们希望获得整个研究社区的帮助,继续延伸Universe环境的广度,包括完成合作伙伴的游戏、Android应用程序(模拟器可以在Docker内部运行)、fold.it、Unity游戏、HTML5游戏、在线教育游戏等等,以及别人能想到的任何事。 微软的Malmo团队将与Universe集成,我们也期待着支持其他AI框架。
OpenAI 研究员还在文章中表示,研究进步要求对其水平进行有实际意义的衡量。在接下来的几周内,他们将发布一个迁移学习基准,允许研究人员确定他们是否在机器的通用问题解决能力研究方面取得进展。 “Universe 从计算机视觉 ImageNet 数据集的发展中获得灵感。李飞飞和她的合作者故意把 ImageNet 的基准设计为几乎不可能做到的,但图像识别的错误率从2010年的28%迅速下降到2016年的3%,达到(在某些情况下甚至超过)人类的水平。如果AI社区在Universe 上也一样发展的话,那么我们在研究普适性的、通用的人工智能系统上,将会取得真正的进展。”
负责人及鸣谢 Acquisition & partnerships: Erin Pettigrew, Jack Clark Core infrastructure: Greg Brockman, Catherine Olsson, Alex Ray Demonstrations: Tom Brown, Jeremy Schlatter, Marie La, Catherine Olsson Distributed training infrastructure: Vicki Cheung, Greg Brockman, Jonas Schneider Documentation & communications: Jack Clark, Andrej Karpathy, Catherine Olsson Environment integrations: Alec Radford, Jonathan Gray, Tom Brown, Greg Brockman, Alex Ray, Catherine Olsson, Trevor Blackwell, Tambet Matiisen, Craig Quiter Initial agent results: Rafal Jozefowicz, Dario Amodei, Ilya Sutskever, Jonathan Ho, Trevor Blackwell, Yaroslav Bulatov Remote environment management: Vicki Cheung, Greg Brockman, Catherine Olsson, Jie Tang RL baselines: Dario Amodei, Harri Edwards Website: Ludwig Petterson, Jie Tang, Tom Brown, Alec Radford, Jonas Schneider, Szymon Sidor World of Bits: Andrej Karpathy, Tianlin (Tim) Shi, Linxi (Jim) Fan, Jonathan Hernandez, Percy Liang (责任编辑:本港台直播) |