GAN通常使用相互充当对手的两个神经网络来构造。一个生成非常类似于有效样本的假样本,而另一个网络(鉴别器)则接收与来自发生器的偶然错误样本混合的训练样本流,并将其区分开。这两个网络都是基于他们的对手的性能进行训练,在相互fooling的过程中变得越来越好。这个迭代过程的最终结果是,整体而言,模型被更好地训练,而且,更重要的是,通过最少的外部干预实现了对模型的改进。 强化学习(Reinforcement learning,RL) 强化学习原则上是通过实验和探索的方式学习。这与监督学习的范例大相径庭,因为后者依赖于已知的良好的训练数据,而强化学习开始时几乎不知道“世界是如何工作”。强化学习基于三个基本要素——“状态”、“行动”和“奖励”。 举例来说,假设有一家毛衣电商,他们想使用强化学习算法,来说服游客购买他们的产品。我们来看看“状态”、“行动”和“奖励”是如何工作的。一个独特的“状态”,可以是一个潜在的加拿大访客,花了两分钟挑选一件毛衣的各种颜色,并已阅读该产品的两个评论;“行动”则是指,商家说服潜在顾客进行购买会采取的步骤(例如提供即时折扣,或显示穿着类似毛衣的名人的照片)。在某个“状态”中应用“行动”会导致到新“状态”的转换。在每次转换之后,基于进行销售的概率的增加(或减少)来“奖励”(或惩罚)强化学习算法。这里的关键是,强化学习算法最初对此毫不知情,但随着时间的推移,他们会学习选择在特定的“状态”(人口、环境和偏好)下完成最佳的策略(动作序列)。 为什么说强化学习非常重要?主要有两个原因。首先,它们在诸如机器人、广告和游戏的各种应用中产生了显着的结果。更重要的是,强化学习可以很好地模仿人类从婴儿到成年的大脑的学习过程。 (责任编辑:本港台直播) |