首先,更好的表征学习有助于提升性能。研究人员的第一个观察是,大规模数据有助于进行表征学习,从而提高实验中每个视觉任务的表现。研究结果表明,共同构建一个大规模的预训练数据集十分重要。这也表明,无监督和半监督表征学习方法的前景光明。 此外,从实验结果看,数据的规模会在一定程度上抵消标签空间中的噪音。 其次,性能随训练数据的数量级呈线性增长。 谷歌研究人员表示,也许最令他们惊讶的发现是,模型性能与用于表征学习的训练数据数量(log-scale)间的关系呈线性!即使在 300M 的规模,也没有观察到什么平台。 在 JFT-300M 不同子集上的预训练后,进行物体检测的性能。x 轴表示对数刻度的数据集大小,y 轴是 COCO-minival 子集中 mAP@[0.5,0.95]中的检测性能。 容量至关重要。为了充分利用 300M 的图像,需要更高容量(更深)的模型。例如,COCO 对象检测基准的增益,使用 ResNet-50(1.87%)相比 ResNet-152(3%)要小得多。 此外,使用 JFT-300M 的新数据集,谷歌研究人员在好几个基准上都取得了当前最佳结果。例如,单一模型 COCO 检测基准从 34.3 AP 提升为 37.4 AP。 ▎谷歌的目标:10亿+ 规模数据集 Gupta 补充强调说,由于没有搜索最佳的超参数集合(因为需要相当大的计算量),所以本次实验得出的结果很可能还不是最佳。也就是说,这次他们的实验可能还没有完全将数据对性能的影响表现出来。 由此,Gupta 指出,虽然难度很大,但获取针对某一任务的大规模数据应当成为未来研究的重点。 在模型越来越复杂的现在,谷歌的目标是——朝着 10 亿+ 的数据集前进。 ▎Reddit 评论:不需要那么大的数据集,需要更高效的算法模型 Reddit 上网友对谷歌这篇新论文有很多讨论。新智元摘选其中有代表的观点。其中,获得点赞数最多的评论来自网友 gwern: “性能提升的表格看起来很棒。他们也提到,斜线很可能比看起来的更陡(改进的程度可能比看起来的高),因为他们既没有训练多个模型来进行收敛,也没有进行超参数搜索。听到“数据的非理性效应”依然有效,这很好。 “但是,另一方面,在回答问题的方法上。这一研究使用了50 颗 K80 GPU(计算等于8.3 GPU年),但是他们还不能训练一个101层的Resnet模型,来实现收敛或者是回答计划的问题 ,更不用说进行超参数搜索或使用1000层的Resnet或者Densenet或者Attention以及其他的你用最新的CNN能够完成的事,来进行实验。 “如果一个谷歌联合CMU的团队,再加上如此强大的计算资源,都不能利用好300M的图像,那其他人为什么会需要这一数据集,或者其他类似的东西。确实,GPU和模型大小已经在增长,但是,最开始的ImageNet都需要好几天的训练才能完成,所以,在300M的的数据集变得可行前,你需要拥有许多英伟达的产品。 “所以,答案是:一般的数据用于图像处理任务已经足够,所以,更大型的,类似ImageNet的数据集其实是不需要的,因为没有人可以用这些数据集产生有意义的结果。实际上,人们需要的是一个现有计算能力更能支撑的、联网效果更好的、更加高效的模型、更高质量的综合数据集(例如,清洗过的标签、更浓密的注释等),或者更加专业化的数据。” 此外,网友 bbateman2011 回复: “我的观点是,巨头公司们可以利用的资源是我们大多数人永远得不到的。因此,机器学习的大部分工作中,并没有足够的资源来使用超巨量的数据。因此,重要的是少量数据的边际改进,即,假如有一个学习曲线,对于给定类别的数据和算法,它可以怎样改进。这是有价值的。老实说,我没有仔细阅读论文,不清楚它具体做了什么。但是,在改进中达到一个 noise floor 之后,再使用更多的数据会更好。” (责任编辑:本港台直播) |