我最近一直在想的一件事是隐式反馈(implicit feedback)的形式。在这个领域,我学到了几个星期前访问 GATech 的一篇很酷的论文,这篇论文是:《从解释中学习情感使用和强化学习建议》,作者是 Samantha Krening 和她的同事。具体工作中,他们有一个 coach 从强化学习算法的角度给予建议,并用它来调整我认为是更直接的奖励的东西。一般我认为这有点像一个婴儿。模型中有一些内置的奖励信号(它不能一直是海龟),但是,能让我们认为是一个奖励信号(像一个朋友说「我真的不喜欢你这样做」)的东西,必须是能通过一个学习模型转化成真正的奖励,比如告诉我这是负反馈。我希望看到领域中更多的研究,能试图解决如何将稀疏和不完美的「真实」奖励信号转化成我们可以实际学习优化的东西。 原文地址:https://nlpers.blogspot.de/2016/12/whence-your-reward-function.html 机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |