监督式学习是挡脚石，非监督学习才是人工智能(2)_本港台直播_J2开奖直播

这一过程被认为是监督式学习，因为大量的数据被输入到机器中，这些数据被事先煞费苦心地贴上了标签。例如，要训练一个神经网络来识别苹果或橙子的图片，就需要给这些图片贴上标签。机器可以通过识别所有被标记为苹果或橙色的图片来理解数据，这些图片有共同之处，因此机器最终可以利用这些已识别的图片来更准确地预测新图像中所出现的内容。他们看到的标记数据越多，看到的数据集越大，就能更好地增进他们预测的准确性。

这种方法在教机器学习视觉数据时很有用，还可以教机器如何识别从照片、视频到图形和书写在内的东西。一个明显的优势是，在许多应用程序中，机器在图像识别上做得甚至比人类还好。

比如，Facebook的深度学习软件能够将一张陌生人的两张照片进行匹配，其准确性与人类相当（实际上97%的情况下要好于人类），而谷歌在今年早些时候推出了一种可以从医学影像中探测肿瘤的神经网络，它的准确性甚至高于医师。

无监督学习：不需要监护人指导就得出结论

如你所预期，与监督式学习相对应的是无监督学习。这是指你松开系在机器上的皮带，让它潜入数据中，自主地进行发现和体验，寻找模式和联系，并得出结论，而不需要监护人的指导。这项技术长期以来一直被一部分人工智能科学家们所批评，但在2012年，谷歌展示了一个深度学习网络，能够从一大堆没有标记过的图片中破译猫、人脸和其他物体。这项技术令人印象深刻，并带来了一些极为有趣和有用的结果，但是，到目前为止，在任何方面无人监督学习都达不到监督学习的准确性和有效性。

无处不在的数据

这两种方式的差异使我们进入了对一个更大、令人困惑的话题的探讨。把这些机器比作人类婴儿很有用。我们知道，只要让我们的孩子放松，没有指导他也会学习，但他学到的不一定是我们想要他学的东西，学习的方式也无法预测。

但是，既然我们也通过教育来教孩子，那么我们就需要通过客观上无穷多的话题使孩子暴露于大量物体和概念之中，我们需要教给孩子方向，动物和植物，重力和其他物理属性，阅读和语言，食物类型和元素等。事实上是所有存在的事物。随着时间推移，所有这些几乎都可以通过展示和讲述活动以及回答年轻人无穷多得问题而被解释。这些问题都是由任何好奇的年轻人提出的。

这是一项浩大的工程，但所有父母和普通孩子身边的人每天都在做着这样的事情。神经网络有同样的需求，但它的关注点通常更狭窄，我们也不太会与它进行社交，所以标签需要更加精确。

目前，人工智能研究人员和科学家可以采取很多方法来获取数据，以训练他们的机器。第一种方法是走出去，自己收集大量的标签数据。谷歌、亚马逊、百度、苹果、微软和Facebook等公司的情况都是如此，有意思的事，这些企业都拥有令人惊叹的海量数据——其中大部分都是由客户免费提供的。如果想把所有这些数据都列出来，那就太愚蠢了；但应该考虑一下上传到这些公司数据库云存储上的数十亿条标记过的图片。

然后想想所有的文档，通过语音、文本、照片和光学字符识别进行的搜索查询，位置数据和地图，评级、赞和分享，购物信息，快递地址，电话号码和联系方式，地址簿和社交网络。拥有这些资源的公司——以及任何规模庞大的公司——往往在机器学习中拥有独特的优势，因为它们拥有丰富的特定类型的数据

数据带来的困难

如果你碰巧没有拥有一家拥有海量数据的财富100强公司，那么你就应该知道如何与他人分享。获取大量多样化数据是人工智能研究的一个关键部分。幸运的是，现在已经有大量免费和公开的标签数据集，涵盖了各种各样不同的类别。根据你所想，atv，你可以找到显示从人类面部表情和手语到公众人物脸型和肤色的各种数据集。

你还可以找到数以百万计的关于人群、森林和宠物的图片，这包括所有宠物的照片；你也可以通过筛选大量的用户和顾客评论来获得相关信息。此外，还有一些数据集，包括垃圾邮件、多种语言的推文、博客帖子和法律案例报告。

(责任编辑：本港台直播)