码报:【j2开奖】无监督学习、GAN和强化学习将构建机器学习的未来(2)_本港台直播_J2开奖直播

　　GAN通常使用相互充当对手的两个神经网络来构造。一个生成非常类似于有效样本的假样本，而另一个网络（鉴别器）则接收与来自发生器的偶然错误样本混合的训练样本流，并将其区分开。这两个网络都是基于他们的对手的性能进行训练，在相互fooling的过程中变得越来越好。这个迭代过程的最终结果是，整体而言，模型被更好地训练，而且，更重要的是，通过最少的外部干预实现了对模型的改进。

　　强化学习（Reinforcement learning，RL）

　　强化学习原则上是通过实验和探索的方式学习。这与监督学习的范例大相径庭，因为后者依赖于已知的良好的训练数据，而强化学习开始时几乎不知道“世界是如何工作”。强化学习基于三个基本要素——“状态”、“行动”和“奖励”。

　　举例来说，假设有一家毛衣电商，他们想使用强化学习算法，来说服游客购买他们的产品。我们来看看“状态”、“行动”和“奖励”是如何工作的。一个独特的“状态”，可以是一个潜在的加拿大访客，花了两分钟挑选一件毛衣的各种颜色，并已阅读该产品的两个评论；“行动”则是指，商家说服潜在顾客进行购买会采取的步骤（例如提供即时折扣，或显示穿着类似毛衣的名人的照片）。在某个“状态”中应用“行动”会导致到新“状态”的转换。在每次转换之后，基于进行销售的概率的增加（或减少）来“奖励”（或惩罚）强化学习算法。这里的关键是，强化学习算法最初对此毫不知情，但随着时间的推移，他们会学习选择在特定的“状态”（人口、环境和偏好）下完成最佳的策略（动作序列）。

　　为什么说强化学习非常重要？主要有两个原因。首先，它们在诸如机器人、广告和游戏的各种应用中产生了显着的结果。更重要的是，强化学习可以很好地模仿人类从婴儿到成年的大脑的学习过程。

(责任编辑：本港台直播)