报码:学界 | 如何设计奖励函数(2)_本港台直播_J2开奖直播

我最近一直在想的一件事是隐式反馈（implicit feedback）的形式。在这个领域，我学到了几个星期前访问 GATech 的一篇很酷的论文，这篇论文是：《从解释中学习情感使用和强化学习建议》，作者是 Samantha Krening 和她的同事。具体工作中，他们有一个 coach 从强化学习算法的角度给予建议，并用它来调整我认为是更直接的奖励的东西。一般我认为这有点像一个婴儿。模型中有一些内置的奖励信号（它不能一直是海龟），但是，能让我们认为是一个奖励信号（像一个朋友说「我真的不喜欢你这样做」）的东西，必须是能通过一个学习模型转化成真正的奖励，比如告诉我这是负反馈。我希望看到领域中更多的研究，能试图解决如何将稀疏和不完美的「真实」奖励信号转化成我们可以实际学习优化的东西。

　　原文地址：https://nlpers.blogspot.de/2016/12/whence-your-reward-function.html

　　机器之心编译，转载请联系本公众号获得授权。

　　?------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]

(责任编辑：本港台直播)