本月初,浪潮在今年的财年大会上,正式对外公布成立人工智能部,持续推出面向AI应用的创新计算平台。 当然,浪潮广为人知的自然是在其深耕的服务器领域。根据赛迪顾问此前发布的数据,2016年度,浪潮服务器出货量份额稳居中国市场第一,达到20.4%,并保持高速增长。那么,此次发力人工智能,浪潮有何背书? 那么,传统计算力提供者转型做深度学习有什么优势呢?换句话讲,计算力和深度学习有什么关系? Geoffrey Hinton Yoshua Bengio Yann LeCun 其实,深度学习可追溯到20世纪40年代,而经过数十年的发展,直到2006年左右,Hinton、Bengio、LeCun等大牛先后发布了多篇论文,才算正式掀起了深度学习的热潮,也拉开了AI第三次热潮的帷幕。 众所周知,atv直播,深度学习技术的原理是采用高性能计算机建立模拟人脑进行分析学习的深度神经网络,让机器能够像人一样思考。为什么深度学习到第三次AI热潮的时间点才得以爆发呢?上世纪90年代,神经网络取得了重要进展,Hochreiter和Bengio采用LSTM(长短期记忆)来解决对长序列进行建模的难题。但是,很快这股热潮就退却了。其中,很大一部分原因就是因为那个时候,人们认为深度网络是难以训练的,其计算代价太高,j2直播,而以当时可用的硬件难以进行足够的实验。 从更深层次说,人工神经网络在20世纪50年代就已经成功实验,为什么深度学习到现在才被认为是关键技术?答案是与日俱增的数据量。 由于人类的生产生活越来越多的依赖计算机,越来越多的数据就被记录在计算机上,而互联网将计算机与计算机由链接起来,“大数据”就产生了,而大数据才使得机器学习更加容易。 根据粗算,监督式的深度学习算法要想达到“可接受”的程度,每类给定的标注样本需要5000个,要想“超越”人类表现,所需的标注样本的数据集要超过1000万个。 总而言之,为了实现机器像人一样思考,需要进行海量数据的模型训练和提升应用扩展性,这对超算的计算效率要求十分巨大,数字说明一切。 图片来源:image-net.org 首先说说ImageNet,Geoffrey Hinton在2012年成功发表论文《ImageNet Classification with Deep Convolutional Neural Networks》,而此论文之所以得以发布正是基于Imagenet数据集,因此带来了计算机视觉领域的“革命”,极大推动了ImageNet对深度学习的贡献。而事实是,Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。 图片来源:research.google.com/youtube8m/ 比如谷歌发布的Youtube-8M,该数据集是开源的视频数据集,视频来自youtube,为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。据统计,Youtube-8M上共计有8百万个视频、总时长50万小时、4800类。 图片来源:lemurproject.org 再比如Clueweb09,它是用来支持信息检索和相关人类语言技术研究的资料库,包含了从2009年1月到2月间收集的大约10亿个网页、共10种语言。如果采用RNN算法模型训练Clueweb09英文数据集的话,需要涉及到200亿的参数变量,用现有的计算技术需要180年才能训练完所有数据。 也就是说,以现在超算的计算力,还无法完成“海量”的机器学习任务。 (责任编辑:本港台直播) |