深度学习在视觉上的成功要归功于:(a)高容量的模型;(b)越来越强的计算能力;(c)可用的大规模标签数据。从2012年开始,业界在实现模型能力和GPU的计算能力上获得了显著的进步。但是,令人震惊的是,最大的数据集的规模却一直没发生多大的变化。如果我们将数据集的大小增加10倍或100倍,会发生什么?本研究在扫清围绕“海量数据”和深度学习之间的关系的乌云迈进了一步。 JFT-300M数据集包含了对3亿张图片的3.75亿个标签,通过对这一数据集进行研究,我们调查了,如果这些数据被用于表征学习的话,当下的视觉任务表现会迎来哪些改变。研究发现了几个意外(也有期待之中)的结果:第一,根据训练数据规模的数量级增长,视觉任务的表现依然会有线性的增长;第二,研究也证明,表征学习(或者预训练)仍然还有很大的潜力。任何一个人都能仅仅通过训练一个更好的基础模型改进任何视觉任务的表现。我们用这一大型数据集得到了提不同视觉任务的新的最新技术结果,包括图像分类,对象检测,语义分割和人体姿态估计。 我们真诚的希望,这将激发视觉界不要低估数据的价值,并形成共同的努力来构建更大的数据集。 (责任编辑:本港台直播) |