当地时间 5 月 8-11 日,英伟达在加州圣何塞举行了 2017 年的 GPU 技术大会(GTC 2017)。机器之心作为本次大会的特邀媒体,也来到了现场,参阅《现场报道 | 英伟达 GTC 大会开幕,盘点首日三大亮点》。昨天,英伟达 CEO 黄仁勋在大会上正式发布了目前最先进的加速器 NVIDIA Tesla V100。之后,英伟达开发博客又更新了一篇深度解读文章,剖析了 Tesla V100 背后的新一代架构 Volta,其在提供了更好的高性能计算支持之外,还增加了专门为深度学习所设计的 Tensor Core。机器之心在本文中对这篇博客文章进行了编译介绍,同时还在文中加入了一些机器之心对英伟达应用深度学习研究副总裁 Bryan Catanzaro 的采访内容。 在 2017 GPU 技术大会(GTC 2017)上,英伟达 CEO 黄仁勋正式发布了新一代处理器架构 Volta,以及使用新架构的第一款设备——适用于深度学习任务的加速卡 Tesla V100,英伟达将这块显卡称为全球最先进的数据中心 GPU。 从语音识别到训练虚拟助理进行自然交流,从探测车道线到让汽车完全自动驾驶,数据科学家们在技术的发展过程中正一步步攀登人工智能的新高度。而解决这些日益复杂的问题则需要日益复杂的深度学习模型,为深度学习提供强大的计算硬件是英伟达努力的目标。
图 1. Tesla V100 加速卡内含 Volta GV100 GPU,以及 SXM2 Form Factor。 高性能计算设备(HPC)是现代科学的基础,从预测天气、发明新药到寻找新能源,大型计算系统能为我们模拟和预测世界的变化。这也是英伟达在新一代 GPU 架构推出时选择优先发布企业级计算卡的原因。黄仁勋在发布会上表示,全新的 Tesla V100 专为 HPC 和 AI 的融合而设计,同时采用了具有突破性的新技术。英伟达的新架构能否让 GPU 再上一个台阶?让我们随着 Tesla V100 一探究竟。 揭秘新架构与 GPU 特性 Volta 并不是 Pascal 的升级,而是一个全新的架构!——NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro。 在 Nvdia GTC 2017 第三天下午,Nvidia CUDA 软件首席工程师 Luke Durant 与 Nvidia 首席构架师 Oliver Giroux 进行了一个名为 Inside Volta 的技术讲座,解读了 Volta 构架的设计。此后机器之心作为不到五家受邀参与 Volta 深度采访的亚洲媒体之一,成为了第一批深入了解 Volta 与 Tesla V100 的机构。 英伟达认为,硬件的可编程性正在驱动深度学习的发展。谈到 Volta 对人工智能带来的影响时,英伟达副总裁 Bryan Catanzaro 表示,「Volta 提供大量的 FLOP,基于 Volta,人们就可以使用需要更多 FLOP 的模型。如今很多流行的模型都需要很大的计算资源,atv,例如卷积,我个人认为架构上将会有一定的转向,既更多地来利用更多地利用我们已有的大量的 FLOP。当然,构架的进化也会经过一个『达尔文』过程,最终最适应的会成为终极形态」 在本次 GTC 中,我们没有看到联网移动端芯片的身影或为移动端人工智能计算性能提升进行的构架设计,关于这个问题,Volta 设计团队表示,对于可以联网的设备,通过 CPU 结合 GPU 的混合云进行大量计算是必然趋势;而对于无法联网的应用场景,SOC 是更好的选择。 Tesla V100:人工智能计算和 HPC 的助推器 毫无疑问,全新的英伟达 Tesla V100 加速器是世界上性能最高的并行处理器,旨在为计算量最大的 HPC 设备、人工智能和图形工作任务提供支持。它的核心 GV100 GPU 包含 211 亿个晶体管,而芯片面积为前所未有的 815 平方毫米(Tesla GP100 为 610 平方毫米)。它采用了台积电(TSMC)的 12nm FFN 专属工艺打造。与其前身 GP100 GPU 及其他 Pascal 架构的显卡相比,GV100 提供了更强的计算性能,并增加了许多新功能。它进一步减小了 GPU 编程和应用程序移植难度,也通过制程的升级提高了 GPU 资源利用率。另外,GV 100 也是一款能效极高的处理器,其在单位功耗的性能上表现卓越。图 2 给出了 ResNet-50 深度神经网络在 Tesla V100 上进行训练的性能表现。 对于 12nm 制程的选择(AMD 准备在 2018 年推出使用 7nm 制程的显卡),英伟达的首席工程师表示他们已在功耗和性能之间做出了最佳选择。
图 2. Tesla V100 在 ResNet-50 深度神经网络训练任务中的速度比 Tesla P100 快 2.4 倍。如果每张图像的目标延迟是 7ms,那么 Tesla V100 使用 ResNet-50 深度神经网络进行推理的速度比 P100 快 3.7 倍(参与测试的 V100 为原型卡)。 Tesla V100 的主要计算特征包括: (责任编辑:本港台直播) |