本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:Facebook训练机器人讨价还价,没想到AI自学了使诈(2)

时间:2017-06-15 21:53来源:天下彩论坛 作者:www.wzatv.cc 点击:
为了训练协商机器人和进行大规模的定量评估,FAIR团队协作收集了一系列人与人之间的谈判记录。这些人被展示了一组物品和每个物品的价值,每两个人

为了训练协商机器人和进行大规模的定量评估,FAIR团队协作收集了一系列人与人之间的谈判记录。这些人被展示了一组物品和每个物品的价值,每两个人要讨论决定,要怎么划分这些物品。然后研究人员训练一个递归的神经网络,通过教它模仿人们的行为来进行谈判。在对话框中的任何点,模型都试图猜测人类在这种情况下会说什么。

不同于先前针对目标对话框的工作,这些模型被训练成“端到端”,完全是由人类所做的语言和决定所决定的,这意味着这种方法可以很容易地适应其他任务。

为了超越简单地模仿人们,FAIR研究人员允许模型来实现谈判的目标。为了训练模型实现其目标,研究人员让模型进行了数千次的自我谈判,并使用强化学习算法,当它取得好的结果时给予励。为了防止算法开发自己的语言,它也同时训练模型产生人类语言。

为了评估谈判机器人,FAIR团队测试他们在网上与人交谈。大多数以前的工作避免与真实的人对话或在较不具挑战性的领域工作,因为学习模型要响应人们所说的各种语言非常困难。

有趣的是,在FAIR团队的实验中,大多数人没有意识到他们是在与机器人交谈,而不是与另一个人交谈,这表明机器人已经学会在这个领域用英语进行流利的对话。FAIR团队最好的谈判机器人,使用强化学习和对话的推出,其性能已经可以和人类谈判相媲美。它取得了更好的交易的频率,等同于更糟的交易的频率,表明FAIR的机器人不仅可以说英语,也可以聪明地决定想说什么。

强化学习用于对话机器人

监督学习的目的是模仿人类用户的行为,但它并没有明确地试图实现机器人的目标。FAIR团队采用另一种方法,尝试预训练再加监督学习,然后基于评估指标,利用强化学习对模型进行微调。实际上,他们使用监督学习来在语言和意义之间进行映射,但是使用强化学习来帮助决定说什么。

在强化学习过程中,一个机器人试图从与另一个机器的对话中改进其参数。而另一个机器可能是一个人,FAIR团队使用一个固定的监督模型,训练模仿人类。第二个模型是固定的,因为研究人员发现,随着机器开发自己的语言进行谈判,更新两个机器模型的参数导致了模型不收敛。在每一个对话结束时,根据最后达成的协议给予奖励。然后,使用策略梯度,这个奖励通过输出的每一个字被回传网络,从而增加导致高回报的行动的概率。

下一步

这一突破对于研究社区和BOT开发商是重大的一步,可以创造聊天机器人推理,交流,洽谈的能力,对于建立个性化的数字助理至关重要。与社区合作使我们有机会分享我们的工作和我们要解决的挑战,并鼓励有才华的人贡献他们的想法和努力,推动这个领域向前发展。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容