报码:实现无监督学习？谷歌雇百名语言学家为训练数据“镀金”_本港台直播_J2开奖直播

　　编译：刘小芹

　　新智元启动新一轮大招聘：COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

　　简历投递：j[email protected]

　　HR 微信：13552313024

　　新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。

　　加盟新智元，与人工智能业界领袖携手改变世界。

　　【新智元导读】自然语言处理大师 Fred Jelinek 有一句名言：“我每开除一名语言学家，我的语音识别系统错误率就降低一个百分点。”不过，在谷歌搜索 app 背后，则有一支超过百人的语言学家团队，专门为神经网络的训练数据“镀金”，提供“金数据”。监督学习下，直播，需要人来处理的“金数据”不可或缺，而无监督学习仍很遥远。

　　试试向谷歌的搜索 app 询问：“地球上飞得最快的鸟是什么鸟？”，它会回答你：“游隼”。根据 YouTube，游隼的最快速度达到 389 公里/小时。

　　回答正确，但这个答案不是从谷歌内部的主要数据库中来的。当你问它上述问题时，谷歌的搜索引擎会精确定位到一个 YouTube 视频，这个视频是介绍地球上飞得最快的五种鸟类的，搜索引擎随后从视频中提取出需要的信息来回答你的问题，而没提其他四种鸟类。如果你问它：“光明节有多少天？”或者“Totem 持续多长时间？”，谷歌搜索引擎会知道这里的 Totem 是指太阳马戏团的演出，回答你它持续两个半小时，包括30分钟的休息时间。

　　谷歌搜索 app 能做到像这样回答问题是利用了深度神经网络。深度神经网络作为人工智能的一种形式，不仅改进了谷歌搜索引擎，甚至让整个谷歌公司，以及 Facebook、微软等其他互联网巨头改头换面。深度神经网络是一种模式识别系统，能够通过分析大量数据学习执行特定的任务。在谷歌搜索 app 的例子中，深度神经网络学会了从互联网上的相关网页中获取长句子或段落，atv，然后从中提取出有关问题答案的信息。

　　谷歌搜索桌面版最近应用了这些“句子压缩算法”（sentence compression algorithms）。这些算法处理的任务对人类来说非常简单，但一直以来对机器来说是相当困难的，即自然语言处理任务。句子压缩算法显示了深度学习对自然语言理解的促进作用，以及理解并回应人类语言的能力。谷歌搜索部门的产品经理 David Orr 就谷歌的句子压缩研究说：“你需要使用神经网络，起码这是我们发现的唯一的方法，我们使用了我们拥有的所有最先进的技术。”

　　更不用说其背后还有一大批拥有高等学位的人。谷歌组织了一个由大量语言学博士组成团队，它把这支团队称为“Pygmalion”，使用这些语言学家人工筛选的数据来训练神经网络。实际上，谷歌的机器通过观察人类的做法来学习如何从长段落中提取相关答案，这个过程需要重复多遍，相当漫长。这些艰苦的努力同时证明了深度学习的能力和局限性。为了训练像这样的人工智能系统，需要大量的、由专业人士筛选过的数据。这些数据不容易得到，也不便宜，而且对这种数据的需求不会很快消失。

　　金数据和银数据

　　为了训练谷歌的人工智能 Q&A大脑，Orr 的团队还使用过去的新闻报道作为训练数据，让机器学习新闻报道的标题是如何凝缩整个长篇文章的。但谷歌仍然需要这样一支语言学博士团队。他们不仅做句子压缩的示范，而且要标记词类以帮助神经网络理解人类语言。Pygmalion 团队包括了来自全球各地的约100名语言学博士，Orr 称这支团队处理过的数据为“金数据”（Gold Data），而新闻报道之类没有处理过的数据为“银数据”（Silver Data）。银数据当然是有用处的，因为其数量非常大。但金数据是必不可少的。Pygmalion 团队的负责人 Linne Ha 说，这支团队还将继续扩大。

　　这种有人类协助的 AI 被称为“监督学习”，而且目前为止，神经网络也正是以这种方式起作用的。有时，企业可以以外包的方式做这项工作。例如，人们已经为数百万张猫的照片进行了标记，使得训练神经网络来识别猫相当容易。但其他情况下，研究人员别无选择，只能自己标记数据。

(责任编辑：本港台直播)