与此同时,来自微软亚洲研究院视觉计算组的研究员也实现了自己所在领域的里程碑式突破,在图像识别MS COCO(Microsoft Common Objects in Context,常见物体图像识别)图像分割挑战赛中获得第一名。这项挑战赛主要考察在图像中确定某些对象的位置的技术。微软亚洲研究院常务副院长郭百宁博士表示,图像细分技术的难度远超人们的想象,因为计算机必须精准标识出物体在图像中出现的边界,“这应该是图像识别中最难的部分。” 该团队去年设计了一个极深的深层神经网络系统,称为深层残差网络(简称 。该系统一出手就屡获殊荣,比如此次在图像分割上的突破成果也是基于该系统,成绩比第二名高出11%,并且,相较于去年COCO图像分割挑战赛第一名的成绩也有飞跃性的进步。对此,atv,郭百宁博士自豪地表示,“微软一直以来都是图像识别领域的领导者。” 从识别到真正理解,“我们不会止步于5.9%” 尽管近年来科学家们在计算机视觉和语音识别等方面都取得了巨大突破,但他们深知前面还有许多工作要做。 仍以对话语音识别技术为例,微软团队的词错率虽然实现了与人类专业速记员持平的5.9%,但这并不代表计算机就能完美识别出每一个单词。事实上,即使是人类也无法做到完美,计算机的错误率就意味着计算机一样会在人类常常难以准确辨别的内容面前败下阵来:无论是计算机还是人类,都会发现“蓝瘦”、“香菇”(“难受”、“想哭”)不好对付。
“必须继续努力!”Zweig说。他们接下来的努力方向之一,就是确保语音识别技术能在类似人声喧哗的朋友聚会或背景声嘈杂的高速公路上开车这样一些更复杂的现实生活场景都能判别准确,同时重点关注如何完善实现的方法,帮助计算机在多人说话的场合为每位发言者分配名字,还要确保计算机能不论发言者的年龄、口音和音量大小而识别出各种语音。 从长远来看,研究人员将重点研究如何教计算机不仅将人们嘴里发出的声音信号变为文字,更要理解人们话语中的含义。这样一来,计算机就能准确回答用户的问题或采取相应行动。“下一个前沿技术就是从识别到理解。“Zweig 说。 从更宏观的角度,沈向洋博士指出,我们正在远离我们必须了解计算机的世界而逐步接近计算机必须了解我们的世界,真正的人工智能仍在遥远地平线那一边,“在计算机能真正明白我们的语言或示意之前,我们还有很长的路要走。” (责任编辑:本港台直播) |