本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【ImageNet最后的冠军】颜水成:像素级标注数据集(3)

时间:2017-08-17 16:48来源:本港台直播 作者:本港台直播 点击:
颜水成 :首先,涉及到语义的时候,难度比ImageNet的分类任务大很多。现在做语义级别的理解, 一种是探索图像块之间的语义关联,还有一种是用一段话

颜水成:首先,涉及到语义的时候,难度比ImageNet的分类任务大很多。现在做语义级别的理解,一种是探索图像块之间的语义关联,还有一种是用一段话来描述图像。这时候不再是一个个标签,而是词的序列组合。这个空间和图像空间两者融合在一起,其内在维度就比以前增加了很多。维度的增加,意味着训练所需要的数据量就更多。

做图像理解和语义理解的期望是不一样的。ImageNet分类的问题,是给图像一个label或者一个框,只要这一千个标签分类做的还不错,大家就可以接受。涉及到语义层面,即使像Image Caption 这样的任务,人们都对你最后说出来这句话有着非常高的期望,人们期望这些话是有价值的,不是枯燥无意义的,例如“一个棵树旁边有一朵花”这种话对普通人来说没有太大价值。

总的来说,当涉及语义理解,问题就会变得更加复杂,需要的数据量也比以前大很多。但是输出的结果却往往价值非常有限。

新智元:现在有没有好一点的方法做像素级标注数据?

颜水成:比较好的方式是有一些数据标注公司和互联网巨头甚至国家参与进来。例如专项资金的投入,让巨头出数据并做好数据的清洗,而国家出钱让社会上专门的标注公司一起把这件事情做好。就国家的新一代人工智能发展规划中提到:把数据作为一种基础平台建设。

新智元:技术上有什么算法可以辅助生成这样的数据?

颜水成:这是可能的。比如先用已有的数据用生成模型标注数据,atv,然后再用人工微调。这样可以很好的减少数据标注所用的时间,达到智能标注的效果。

新智元:对于语义相关数据集,标注的难度是什么?

颜水成比方说,用一句话描述图像,每个人的描述可能有比较大的差别。这样ground truth就没有那么reliable,很多标注达不成共识。这样带来的直接问题是算法结果好坏的评估就不再绝对可信了。

新智元:既然都是仁者见仁的,那语义级识别有什么应用呢?

颜水成:应用太多了。以网络速度的发展为基础,以后网络数据中会有很多实时视频流。但是人已经无法标注了,产生图像和视频的速度太快了。这时候就需要很多计算机视觉的算法,能对图像/视频产生有意义的文本描述,人去搜索图像以及推荐给合适的用户的时候就有价值了。

新智元:您认为谁能替代ImageNet?

颜水成:很多人的看法可能是Web Vision。我个人的看法是,根本上还是需要有一个像素级标注的数据集,在这个基础上各种图像理解和语义理解的问题就好办了。

竞赛就是比武场:如果你能贡献Insight,为什么不“刷榜”?

“比赛名次本身不重要,重要的是能否给整个society带来有价值的insight”

新智元:有人在知乎评论,近几年的ImageNet获队伍都是用的深度学习,导致比赛的新意下降,您怎么看待这一说法?据说您的团队在五年内曾7次问鼎PASCAL VOC 和ILSVRC的世界冠军和亚军项。同时有一些媒体提到这类比赛的时候就说大家是刷分,您怎么看刷分说法?

颜水成:比赛名次本身不重要,重要的是能否给整个society带来有价值的insight。雕虫小技”很容易被人遗忘,”群殴”式的模型堆砌不会被人敬佩,”暗杀”式的不公布算法细节的刷榜很难被铭记。比赛给各种算法提供了一个相对公平的“比武场”,这是有助于技术创新的。我个人觉得至少有两类成果可以被认为是有Insight的,一类是基础模型,比如AlexNet, GoogleNet, VGG, ResNet以及今年的DPN, 另一类是深度学习的标准模块,比如1x1 卷积 和 Batch-normalization。

如果你在刷榜的同时还为society贡献了你的insight,那么为什么不刷?

新智元:您怎么看待比赛给原创和创新带来什么好和坏的力量?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容