报码:详解监督学习、无监督学习、半监督学习、强化_本港台直播_J2开奖直播

报码:详解监督学习、无监督学习、半监督学习、强化

图：pixabay

「机器人圈」导览：一般说来，训练深度学习网络的方式主要有四种：监督、无监督、半监督和强化学习。在接下来的文章中，机器人圈将逐个解释这些方法背后所蕴含的理论知识。除此之外，机器人圈将分享文献中经常碰到的术语，并提供与数学相关的更多资源。本文编译自硅谷著名的风险投资机构安德森•霍洛维茨基金，作者是Frank Chen。有关数学相关问题，请参阅这个斯坦福大学的教程，其中包含监督和无监督学习，内含代码示例。

监督学习（Supervised Learning）

监督学习是使用已知正确答案的示例来训练网络的。想象一下，我们可以训练一个网络，让其从照片库中（其中包含你父母的照片）识别出你父母的照片。以下就是我们在这个假设场景中所要采取的步骤。

步骤1：数据集的创建和分类

首先，我们要浏览你的照片（数据集），确定所有有你父母的照片，并对其进行标注，从而开始此过程。然后我们将把整堆照片分成两堆。我们将使用第一堆来训练网络（训练数据），直播，而通过第二堆来查看模型在选择我们父母照片操作上的准确程度（验证数据）。

等到数据集准备就绪后，我们就会将照片提供给模型。在数学上，我们的目标就是在深度网络中找到一个函数，这个函数的输入是一张照片，而当你的父母不在照片中时，其输出为0，否则输出为1。

此步骤通常称为分类任务（categorization task）。在这种情况下，我们进行的通常是一个结果为yes or no的训练，但事实是，监督学习也可以用于输出一组值，而不仅仅是0或1。例如，我们可以训练一个网络，用它来输出一个人偿还信用卡贷款的概率，那么在这种情况下，输出值就是0到100之间的任意值。这些任务我们称之为回归。

步骤2：训练

为了继续该过程，模型可通过以下规则（激活函数）对每张照片进行预测，从而决定是否点亮工作中的特定节点。这个模型每次从左到右在一个层上操作——现在我们将更复杂的网络忽略掉。当网络为网络中的每个节点计算好这一点后，我们将到达亮起（或未亮起）的最右边的节点（输出节点）。

既然我们已经知道有你父母的照片是哪些图片，那么我们就可以告诉模型它的预测是对还是错。然后我们会将这些信息反馈（feed back）给网络。

该算法使用的这种反馈，就是一个量化“真实答案与模型预测有多少偏差”的函数的结果。这个函数被称为成本函数（cost function），也称为目标函数（objective function），效用函数（utility function）或适应度函数（fitness function）。然后，该函数的结果用于修改一个称为反向传播（backpropagation）过程中节点之间的连接强度和偏差，因为信息从结果节点“向后”传播。

我们会为每个图片都重复一遍此操作，而在每种情况下，算法都在尽量最小化成本函数。

其实，我们有多种数学技术可以用来验证这个模型是正确还是错误的，但我们常用的是一个非常常见的方法，我们称之为梯度下降（gradient descent）。Algobeans上有一个 “门外汉”理论可以很好地解释它是如何工作的。迈克尔•尼尔森（Michael Nielsen）用数学知识完善了这个方法，其中包括微积分和线性代数。

步骤3：验证

一旦我们处理了第一个堆栈中的所有照片，我们就应该准备去测试该模型。我们应充分利用好第二堆照片，并使用它们来验证训练有素的模型是否可以准确地挑选出含有你父母在内的照片。

我们通常会通过调整和模型相关的各种事物（超参数）来重复步骤2和3，诸如里面有多少个节点，有多少层，哪些数学函数用于决定节点是否亮起，如何在反向传播阶段积极有效地训练权值，等等。而你可以通过浏览Quora上的相关介绍来理解这一点，它会给你一个很好的解释。

步骤4：使用

最后，一旦你有了一个准确的模型，你就可以将该模型部署到你的应用程序中。你可以将模型定义为API调用，例如ParentsInPicture(photo)，并且你可以从软件中调用该方法，从而导致模型进行推理并给出相应的结果。

稍后我们将详细介绍一下这个确切的过程，编写一个识别名片的iPhone应用程序。

得到一个标注好的数据集可能会很难（也就是很昂贵），所以你需要确保预测的价值能够证明获得标记数据的成本是值得的，并且我们首先要对模型进行训练。例如，获得可能患有癌症的人的标签X射线是非常昂贵的，但是获得产生少量假阳性和少量假阴性的准确模型的值，这种可能性显然是非常高的。

无监督学习（Unsupervised Learning）

(责任编辑：本港台直播)