拿一个现实的例子来书,比如今晚要选择在哪个餐厅吃饭。你(代表程序)知道自己爱吃墨西哥菜,根据强化学习理念,去墨西哥式餐厅将会获得最大的奖励,你会开心满足。然而,你还可以选择去吃意大利菜,但你从没吃过,有可能比墨西哥菜好吃,也有可能很难吃。那么,去开发程序已有的知识体系还是怀着探索更优奖励而选择尝试新东西,两者的权衡是强化学习(实际上,还有日常生活)最主要的挑战之一。 强化学习资源 Deepmind David Silver 强化学习视频(这里有) 关于 RL 的博客 经典论文详解
编译来源:https://adeshpande3.github.io/adeshpande3.github.io/Deep-Learning-Research-Review-Week-2-Reinforcement-Learning? :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,与人工智能业界领袖携手改变世界。 (责任编辑:本港台直播) |