OpenAI 研究人员认为:人工智能只有将学习的语言与实践相结合才能真正理解语言,而不是从巨大语料库中找寻语言模式。作为人工智语言之旅的第一步,我们应该研究人工智能是否可以通过交互合作自发产生一种简单的语言作为其通信工具,该研究的两篇论文已经发表在arXiv 上(见文末)。 OpenAI 刚刚发布了让人工智能体在简单环境中自创语言的研究论文。通过给予人工智能互相交流的能力,直播,并提出一个通过交流才能实现的奖励目标,研究人员利用强化学习和精巧的实验设计让人工智能有了自己的语言。 目前,人工智能发明的语言相对简单,具有基础与合成性的特征。基础(Grounded)意味着该语言中的单词有关环境中说话者直接经历的东西。例如:单词「树」与树的图像或其他体验之间的联系;合成性(Compositional)意味着说话者可以将多个单词组合成句子以表示特定想法,例如让另一个人工智能体去到特定位置。
在研究中,人工智能体存在于一个简单的 2D 世界,可以做出移动、观察、与其他人工智能交流等动作。在图中,1号智能体在观察中心点的时候正在说话。 为了训练人工智能体交流的能力,研究者将实验设计成必须进行合作的形式——多智能体强化学习问题。人工智能体存在于具有简单特征的 2D 世界中,每个智能体都有自己的目标:可以是观察一个物体,或是移动到特定的位置,甚至是向另一个人工智能体发出指令让它移动到特定的位置。每一个人工智能都可以向所有人工智能发出信息。每个人工智能获得的奖励分数会被相加计算,随后反馈给各个智能体,这种方式可以鼓励它们的协作。 在每一个时间步里,强化学习智能体可以选择作出两种类型的动作:a. 环境动作,如移动和观察;b. 交流动作,如向其他所有智能体发言。注意:尽管研究者发现人工智能体提出了对应于对象和其他智能体的单词,以及像「看看」或「转到」等动词,但这些单词是由one-hot vector 表示的抽象符号——研究者将这些矢量以英语单词表示以标注它们的含义。在每一个时间步之前,人工智能体都会先处理上一个时间步其他智能体发出的信息,并获知世界中所有物体的位置。交流的信息被存储在人工智能体自有的循环神经网络中,听到的单词会被记住。
在时间步发展中,t=0 时红色智能体对其他智能体说了一个单词以表示红色界标(图中深红色),随后在t=1 时又说了相当于「去(Goto)」的单词,在 t=2 时它说:「绿色智能体」。绿色智能体听到了这些指令,立即移动到了红色界标的位置。 可区分的动作(信息由类似于单词的符号组成)在互不交汇的信道之中传递。这样,每个信道在每个时间步上都是畅通的,可以保证信息能被传递到所有智能体那里。这种方式是通过稍稍改变信息的内容,让智能体在接受信息时可以获得额外奖励达成的。智能体通过计算关于未来奖励的梯度和收到信息中奖励的变化预期决定自己的下一步动作(例如:这些信息中的哪一个能让奖励变多?)。如果一个智能体意识到另一个智能体发出另一种信息可以更好地完成任务,前者就会告诉后者如何换一种说法。换句话说,人工智能体在任务中会提出这样的问题:「我们应该如何交流才能获得最好的奖励?」 通过使人工智能体发送一个实数向量或者相互发送二进制值的连续近似,再或者使用非微分通信和训练,之前的努力成功获取了这种可微分通信。在训练中研究者使用Gumbel-Softmax 策略来近似带有连续性表征的分离性通信决策,这使研究者们得到了两全其美的结果。在训练中可微分通道意味着智能体可用连续性表征快速学习相互之间如何通信,结果就是在训练结束之后汇聚了分离性输出,这些输出的可阐释性更强,并具有组合性的特点。在下面的视频中,OpenAI展示了如何进化语言以拟合其处境的复杂性:一个人工智能体不需要通信;两个智能体发明了一个词的短语以在处理简单任务时,相互协作;三个智能体创造了包含多个词的句子以用于完成更具挑战性的任务。 通过设计实验影响语言的进化 (责任编辑:本港台直播) |