新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,与人工智能业界领袖携手改变世界。 【新智元导读】你可能都认为数据更重要,atv,但这个问题实际上非常复杂,不是简单的“是”或“不是”就能一言以概之。对于这个问题的理解,能够反映出对理论和实际应用问题把握的深刻,新智元摘选 Quora 精彩问答供你参考。 Xavier Amatriain(Quora 工程副总裁) 对这个问题,我希望你期待的不是一个简单的是或者否的答案。在过去几年里,数据更重要还是算法更重要这个问题,专家们(以及非专家们)已经进行过许多冗长的辩论,概括其结论,就是二者谁重要取决于许多细节和细微差别,atv,了解需要时间。 我之前回答过一个很相似的问题:在机器学习中,更多的数据总是比更好的算法好吗?我建议先阅读那个答案,可以解决这个问题的80%,然后再回到这个答案来。这两个问题有一些细微但很重要的区别,我将在下面讨论。 首先,我前面回答的问题是指向机器学习(ML)的,而这个问题提问的是人工智能(AI)。机器学习和人工智能是一回事吗?不完全是。实际上,ML 是 AI 的一个子领域,ML 特别需要用大量数据来训练算法。而 AI 还包括基于逻辑或基于规则的其他方法,这些方法不像 ML 那样需要大量的数据。换句话说,假如我们同意在 ML 中数据并不总是比算法更重要,那么在范围更广的 AI 领域,数据的重要性应该更小。 正如我在另一个问题“市场认为 AI 与 ML 间的区别是什么?”的答案中提到的,大多数人可能不太在意 ML 和 AI 之间的区别,往往将它们混合使用。实际上,今天大多数人把 AI 当做深度学习的同义词,而深度学习其实是一种特殊的机器学习方法。所以,我认为从深度学习的最新进展的观点来看这个问题更好: 是,也不是。的确,深度学习方法非常的“数据饥渴”。深度学习算法有很多参数需要微调,因此需要大量的数据以得出可概括的模型。所以,在这层意义上,拥有大量的数据是是为这些方法提供良好的训练集的关键。 有人认为在大型公共数据集(例如 Imagenet)以及最近的一些研究进展上,算法的表现优劣与数据的量有直接关系。需要注意的是,这里强调了起码在某些领域,公共数据集的存在使得数据不再是很大的竞争优势。
斯坦福大学实验室主任李飞飞 此外,这些算法和方法的有趣的一些方面是,它们有时可以由拥有数据集的人进行“预训练”(pre-trained),然后被许多人应用。在这种情况下,数据就显得不那么重要。举个简单的例子:如果你需要训练一个将英语翻译为西班牙语的模型,拟需要做的是收集数据做成一个巨大的数据集,然后在这个数据集上训练模型一次。模型本身已经具有所有的信息,所以得到这个模型的其他人就不再需要原始数据了。例如,著名的22层的 Googlenet 模型可以从不同的库里下载,例如 GoogLeNet in Keras。 所以,即使对这些数据饥渴型的应用程序来说,是否需要很大量的数据来利用最新的研究,答案也不是确定的。也就是说,如果你在做 state of the art 的研究,或者想做出非常具体的某个场景的应用程序,那么,你需要有内部数据来训练你的最新深度学习方法。 Max Loh(UC Berkeley EECS,Quora Published Writer) 如果你是指短期的考虑,那么数据比算法更重要。许多机器学习研究者将数据比喻为机器学习的“火箭燃料”。一般来说,在大量数据上训练的平庸模型的表现会比在少量数据上训练的伟大模型要好得多。 然而,state of the art 是技术的永恒追求。为了获得突破(如 AlphaGo,Wavenet 等),需要有人不断研究新的机器学习方法。多大的数据量也不可能装满了人类水平的智能,可以编写史诗小说,发明新的医疗技术,打篮球,或者用更少的数据(如人类大脑一般)做出高质量的预测。 所以,如果你想今天就在实际业务中使用机器学习,那么数据更重要;如果你想推动机器的智能潜力,那么算法/模型更重要。 Roman Trusov(Facebook AI 研究实习生,Quora Top Writer) Neal Stephenson 曾在 Cryptonomicon 中给出了数据和算法之间的关系的最好描述: (责任编辑:本港台直播) |