本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:走近最前沿的AI科研项目

时间:2017-07-08 06:53来源:本港台现场报码 作者:118开奖 点击:
编者按:继此前在北京举办了 2017 微软亚洲研究院“合作创·研”年会 之后 ,微软亚洲研究院又在台湾宜兰举行了面向亚太地区高校和科研机构的“2017微软亚洲研究院学术日”交流活

编者按:继此前在北京举办了2017微软亚洲研究院“合作创·研”年会之后,微软亚洲研究院又在台湾宜兰举行了面向亚太地区高校和科研机构的“2017微软亚洲研究院学术日”交流活动。来自台湾、日本、新加坡、香港等亚洲地区的100位学者和科研人员,与微软亚洲研究院的研究员们共同分享了近年来双方合作研究项目的最新进展,并讨论、交换了最新想法,激励彼此取得的技术创新。

多年来,微软亚洲研究院一直与亚洲地区的学术界保持着密切的合作、交流,在诸多研究领域推进着计算机科学的发展。知识与数据挖掘研究探索着新的算法和工具;多媒体研究帮助用户与计算机间的交互和理解;软、硬件的革新为人机交互与智能机器人带来了巨大的革新与发展机会…… 我们希望深入了解身处的数字革命以及如何最有效地利用机会,共同为社会解决更为迫切的挑战。

在这里,我们选取了本次活动中三位学者,关于视频镜头分类、对话理解以及医用影像分析的演讲内容,与大家分享~

wzatv:走近最前沿的AI科研项目

wzatv:走近最前沿的AI科研项目

视频镜头分类:

走向音乐会/演唱会视频自动混搭剪辑的第一步

如今,不少年轻人在听音乐会/演唱会时,都喜欢用手机记录现场视频。回家后,再将录制的内容上传到社交网站或者视频网站。这样一来,网络上就会有很多从不同视角、不同位置拍摄的音乐会/演唱会视频片段。面对此现象,台湾中央研究院的研究人员参考了微软亚洲研究院梅涛等研究员的学术论文,希望通过一个音乐会/演唱会视频自动剪辑流程将网络上同一场演出的所有视频完整地整理出来。

wzatv:走近最前沿的AI科研项目

什么是音乐会/演唱会视频自动剪辑流程?简单地说,就是将活动现场不同位置拍摄的视频转换成一个完整、无缝连接且高品质的音乐会/演唱会。该流程主要致力于解决以下几个问题:首先,视频杂乱无章,常常不完整,或有冗余;第二,由于视频未经处理,常令观赏者看不明白视频内容;第三,由于视频是用手机拍摄,需要对声音、视频进行后期处理,以提升质量。而这其中,第三点最为重要。

为了打动观众,优秀的音乐会/演唱会导演经常会利用不同角度、不同距离拍摄的镜头,以尽可能地展现丰富的艺术感、传递情感和理念。不同类型的镜头是电影语言中的基本元素,在电影语言的教科书里,共定义了6种镜头类型。但在音乐会/演唱会的视频中进行镜头分类却十分具有挑战性。

为此,台湾中央研究院的研究人员提出了一种新的基于概率的方法,称为连贯分类网络(CCNet),通过解决三个关键问题来处理这一难题。首先,重点学习从深层卷积神经网络中提取的分层输出,并通过对大规模数据集进行预先训练,以获得更有效的特征。其次,研究人员提出了一种帧间分类的方案,即基于误差加权深度相关模型(error weighted deep cross- correlation model,EW-Deep-CCM),提高了分类精度。具体而言,通过构建基于神经网络的相关模型(Deep-CCM),不仅独立地提取了深层卷积神经网络的特征层次,还考虑了不同层配对特征的统计依赖关系。然后,采用贝叶斯分类器结合的误差加权方案,探索个体Deep-CCM分类器在提高每一镜头分类精度的贡献。第三,将帧分类结果反馈到线性链条件随机场(CRF)模块中,通过考虑全局和时间规律来改进镜头预测。

目前,台湾中央研究院的研究人员已经在现场音乐会/演唱会的视频数据集上进行了实验,广泛的实验结果证明了在当前流行的融合方法下所提出的CCNet方法的优点。未来,台湾中央研究院将继续处理多重音轨接合( Multiple audio sequence alignment) 及遵守电影语言规则的融合技术。同时,也期待双方的进一步合作。

wzatv:走近最前沿的AI科研项目

人工智能的终极挑战——理解对话

从“2001太空漫游”里的哈尔,到“星球大战”中的C3PO、“星际迷航: 下一代” 中的Data,再到“Her(她)”中的萨曼莎,在电影中人们早已开始设想与计算机进行自然语言的对话。然而,真正自然语言对话理解的实现则需要:强大的语音识别能力,自然语言的理解以及情感意识等。

wzatv:走近最前沿的AI科研项目

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容