▎论文:再探深度学习时代数据的超凡有效性 摘要 深度学习在视觉上的成功要归功于: (a)高容量的模型;(b)越来越强的计算能力;(c)可用的大规模标签数据。从2012年开始,业界在实现模型能力和GPU的计算能力上获得了显著的进步。但是,令人震惊的是,最大的数据集的规模却一直没发生多大的变化。如果我们将数据集的大小增加10倍或100倍,会发生什么?本研究在扫清围绕“海量数据”和深度学习之间的关系的乌云迈进了一步。 JFT-300M数据集包含了对3亿张图片的3.75亿个标签,通过对这一数据集进行研究,我们调查了,如果这些数据被用于表征学习的话,当下的视觉任务表现会迎来哪些改变。研究发现了几个意外(也有期待之中)的结果:第一,根据训练数据规模的数量级增长,视觉任务的表现依然会有线性的增长;第二,研究也证明,表征学习(或者预训练)仍然还有很大的潜力。任何一个人都能仅仅通过训练一个更好的基础模型改进任何视觉任务的表现。我们用这一大型数据集得到了提不同视觉任务的新的最新技术结果,包括图像分类,对象检测,语义分割和人体姿态估计。 我们真诚的希望,这将激发视觉界不要低估数据的价值,并形成共同的努力来构建更大的数据集。 文章系转载,仅代表作者观点, 不代表GGV纪源资本立场 END 公司简介 GGV纪源资本成立于2000年,atv,是一家专注于中美两地早中期企业的风险投资机构,管理8支基金,共计38亿美元的资产,在硅谷、上海和北京设有办公室。作为硅谷最早投资中国企业的风险投资基金之一 , GGV投资过包括阿里巴巴、滴滴出行、去哪儿、 YY、Airbnb、Square、Wish、小红书等两百余家公司。截止2017年2月,其投资的公司中有29家已经上市,未上市公司中有17家估值超过10亿美元的独角兽公司,5家估值超过5亿美元的准独角兽公司。 关注GGV纪源资本 (责任编辑:本港台直播) |