其次,我们认为深度学习是一项复杂的系统性工程。系统性工程需要集团作战,数据的清洗标定、大规模训练集群的搭建、各种神经网络框架的测试、神经网络的优化都需要比较专业的团队分工才能达到最优效果。 最后,理论的探索和创新需要一个良好的环境。一方面,我们投入大量资源构建我们的数据和训练平台,让我们的研究人员可以在海量的训练数据上迅速的做大量的试验。 另一方面,我们营造了一个宽松的研究环境,可以让大家在支持公司业务发展的同时有大量时间可以进行技术的探索。 ▎之前为这个比赛准备了多久? 有一个怎样的团队在备战? 我们准备了半年多,主体参赛团队总共7人,四位博士、两位硕士外加一位实习生。另外,还有很多该领域工作的同事也陪伴我们完成这个过程,比如,有高性能计算团队团队搭建并行训练集群,团队成员大都毕业于国内的顶级高校。 ▎从产业界的角度讲, 赢得这个比赛(场景分类)的意义主要是哪里。 除了场景分类外,赢得另外4个版块的意义在哪里? 场景分类技术,对于安防产业有比较重要的应用价值,基于对场景的理解可以有助于我们的系统对于视频中的信息理解和应用。 一方面,可以让系统根据场景适配算法,另一方面,也可以让系统更好的理解视频中所产生的信息。例如,当系统检测到视频中有人在奔跑,系统理解到这个奔跑事件所发生的环境,是在步行街或者是在学校,那么,它就可以采用不同的应对策略。 而目标检测、分类、跟踪及定位技术是计算机视觉领域的基础算法,可以应用于许多领域。 例如,自动驾驶、机器人、智能摄像机、智能手机等,只要系统中有视觉传感器,需要视觉传感器从视频图像中提取信息,这些技术都是必不可少的。Imagenet竞争的成绩逐年提升,显示人工智能技术在工业界的应用会逐渐成熟,其应用领域也会获得极大的拓展。 ▎介绍下海康威视研究院和它的主要工作? 海康威视研究院主要负责公司基础技术和前沿技术的研究,研究院现阶段主要的研究方向是人工智能技术和大数据技术。研究院现有500余名研究人员。在人工智能领域,海康威视已经投入研究超过10年时间,算法研究人员超过200人。 在公司的摄像机、NVR、云存储、视频管理软件等多项产品中都集成了研究院开发的人工智能技术。同时,研究院在KITTI、MOT、Pascal VOC等世界级人工智能竞赛中曾获得多个第一的好成绩。 除研究院外,它背后的海康威视(海康威视数字技术股份有限公司)是以视频为核心的物联网解决方案和数据运营服务提供商。在全球设有五大研发中心,在视音频编解码、视频图像处理、视频智能分析、云计算、大数据、云存储、人工智能等方面有深厚的技术积累,为金融、公安、电讯、交通、司法、文教卫、能源、楼宇等众多行业提供专业的细分产品与IVM智能可视化管理解决方案。 ▎具体的,在detection task中,您们在解决imbalance的问题上具体的sampling策略是怎样的?您们是怎样确定某一个class中的正负样本的比例的? 很多数据集存在样本不均衡的问题,有些类别样本特别多,有些类别样本特别少。训练模型时,如果从一个图像列表中依次读取样本训练的话,小类样本参与训练的机会就比大类少。 训练出来的模型会偏向于大类,即大类性能好,小类性能差。我们的平衡采样策略就是把样本按类别分组,每个类别生成一个样本列表。 训练过程中先随机选择1个或几个类别,然后从各个类别所对应的样本列表中随机选择样本。这样可以保证每个类别参与训练的机会比较均衡。 ▎想问下在之前训练预测环节中提到的数据增强方法,如何实现的可以详细谈一下吗? 我们实现了一种有监督的数据增强方法,可以在裁剪数据的时候更好的利用目标物信息。后面马上会在Eccv会议上作report,因此建议关心的朋友直接看report。 (责任编辑:本港台直播) |