本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:学界 | 如何设计奖励函数(2)

时间:2017-03-16 02:53来源:118论坛 作者:j2开奖直播 点击:
我最近一直在想的一件事是隐式反馈(implicit feedback)的形式。在这个领域,我学到了几个星期前访问 GATech 的一篇很酷的论文,这篇论文是:《从解释中

我最近一直在想的一件事是隐式反馈(implicit feedback)的形式。在这个领域,我学到了几个星期前访问 GATech 的一篇很酷的论文,这篇论文是:《从解释中学习情感使用和强化学习建议》,作者是 Samantha Krening 和她的同事。具体工作中,他们有一个 coach 从强化学习算法的角度给予建议,并用它来调整我认为是更直接的奖励的东西。一般我认为这有点像一个婴儿。模型中有一些内置的奖励信号(它不能一直是海龟),但是,能让我们认为是一个奖励信号(像一个朋友说「我真的不喜欢你这样做」)的东西,必须是能通过一个学习模型转化成真正的奖励,比如告诉我这是负反馈。我希望看到领域中更多的研究,能试图解决如何将稀疏和不完美的「真实」奖励信号转化成我们可以实际学习优化的东西。

  原文地址:https://nlpers.blogspot.de/2016/12/whence-your-reward-function.html

  机器之心编译,转载请联系本公众号获得授权

  ?------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容