新的数据类型来自于世界上越来越多、无处不在的传感器,比如医疗传感器、运动传感器、智能设备的陀螺仪、热传感器等等。还有就是人们给他们吃的食物、葡萄酒标签和讽刺性标语等拍的照片。 问题在哪里呢? 尽管数据是如此之多,但事实证明许多数据都不是那么有用。要么是它们太小了,要么是不太好,要么是只有部分被贴上标签,或者标签贴的不合适,总之他们就是无法满足你的需求。例如,如果你希望教会一台机器识别图像中的星巴克标志,你可能只能找到一个用来训练的图片数据库,该数据库可能被打上了“饮料”、“饮品”、“咖啡”、“容器”或人名“乔”,没有正确的标签,它们就没有用处。 一般的律师事务所或老牌公司在其数据库中可能会有数百万份合同或其他文书,但这些数据无法被使用,因为它们可能是被简单地以未打过标签的PDF格式保存的。在获得最优数据方面的另一个挑战是确保所使用的训练数据集数量够大,并且是多样化的。 另外,在训练一个复杂的模型,如深度神经网络时,使用小数据集可能会导致所谓的过度拟合,这是机器学习中一个常见的问题。实际上,过度拟合是由于大量可学习参数与训练样本有关联导致的,这样的参数充当了“神经元”,我们在之前通过反向传播对其进行了全面的调整。结果可以是一个能够记住这些训练数据的模型,而不是从数据中学习一般概念的模型。 回想一下我们的苹果-桔子网络。因为作为训练数据的苹果图像很少,而神经网络却很庞大,我们很可能会让网络在特定细节上进行仔细的研究——红色、棕茎,圆形,这些细节需要在训练数据之间被准确地区别化。这些微小的细节可能会很好地描述训练苹果的图片,但当测试中机器被要求识别一个新的苹果时,这些细节可能就被证明是无关紧要,甚至是不正确的,因为在测试的时候,可能会有一个新的、机器之前未见过的苹果。 另一个重要的原则就是数据的多样性,从统计学上来说,你所积累的数据越独特,你的数据就越有可能更加多样化。 在“苹果-桔子”的例子中,我们希望机器能有合理的概括能力,这样它就能识别所有苹果和桔子的图像,不管这些苹果桔子是否出现在训练集中。 毕竟,并不是所有的苹果都是红色的,如果我们只在红色苹果的图片上训练我们的网络,很有可能在测试时它是无法识别出绿色苹果的。因此,如果在培训中使用的数据类型是不全面的,无法囊括测试中所有的可能性,那么就会出现这样的问题。在很多人工智能领域,以偏概全的问题已经开始出现。神经网络和用来训练它们的数据集反映了其制造者人群中的偏见。再一次,如果只用红苹果来训练我们的苹果-橘子网络,我们可能会让机器具有偏见,认为苹果只能是红色的。 如果类推到其他应用之中,比如面部识别,那么不全面数据带来的影响就会变得非常明显,就像老话说的那样:“进来的是垃圾,出去的还是垃圾” 制造一个可以独立思考的捕鼠器 缺少人力去标记数据是一个问题,这很昂贵。或者如果世界上的所有公司都忽然统一开放他们的数据资源,并心甘情愿地将其提供给全球的科学家,这样一来缺乏好的训练数据一事就不复存在了。 与其朝着获得尽可能多的数据这一目标努力,深度学习的未来可能会是朝着无监督学习技术这一方向发展。 如果我们想一想我们是如何教给婴幼儿关于世界的知识时,这样的做法就是有道理的;毕竟,尽管我们确实教会了孩子很多东西,但作为人类所做的最重要的学习,是经验,这是无人监督的。 编译:网易见外智能编译机器人 (责任编辑:本港台直播) |