本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:业界 | 剖析用于深度学习的硬件:GPU、FPGA、ASIC和DSP(2)

时间:2017-04-03 20:15来源:本港台直播 作者:j2开奖直播 点击:
英伟达正在致力于开发效率更高的器件,比如 Tegra TX1、TX2(深度神经网络需要 12 瓦的能耗和每秒 ~100 千兆次浮点运算的性能,TX2 需要的更多)和更强大的

英伟达正在致力于开发效率更高的器件,比如 Tegra TX1、TX2(深度神经网络需要 12 瓦的能耗和每秒 ~100 千兆次浮点运算的性能,TX2 需要的更多)和更强大的 Drive PX(250 瓦,与一个 Titan X 的消耗量差不多)。

这里还要注意,在自动驾驶汽车和智能摄像机中,atv直播,直播视频是必要的而图像批处理是不可能实现的,因为视频需要针对及时响应进行实时处理。

一般 GPU 的水平大约是 5 G-flops/s per W。如果我们想在移动系统中部署深度学习解决方案,那我们还需要更好的方法!

FPGA

Xilinx 等公司的现代 FPGA 器件就是电子元器件中的乐高。我们可以使用其电路作为模块来构建出整个定制微处理器和复杂的异构系统。而在最近几年,FPGA 开始生产出越来越多的乘累加计算模块。这些 DSP 模块正如其名,能够执行乘法运算并可以被排列到一起来进行一定量的并行运算。

我们将 FPGA 应用于神经网络的研究历史已有 10 年时间。我们的工作始于来自纽约大学的 Yann LeCun 的开创性工作,尤其是 Clement Farabet。我们的协同合作制造出了 NeuFlow,它是一个复杂的、用于运行神经网络的数据流处理器。

从 2011 年到 2015 年早期,我们完善了一个全新的设计——nn-X。这项工作是由 Berin Martini 和 Vinayak Gokhale(来自我们的办公室)领导的。这套系统可以在 4 瓦的功率电力预算下实现 200 G-ops/s 的速度,也即 50 G-ops/s/W,这个结果几乎是 GPU 性能的 10 倍。

但是 nn-X 有两个很大的问题:

1. 当固定的卷积引擎(convolutional engine)未被使用时其利用率会很低

2. 高内存带宽

第一个问题是由于 nn-X 采用了固定的 10x10 卷积引擎,而当它在执行 3x3 卷积时,只有 9% 的 DSP 单元得到了有效利用。这一点后来是通过将一个 12x12 的网格分为 4x4 单元的 3x3 卷积器而得以解决。不幸的是该系统还需要高内存带宽,因为它并没有使用数据缓存且需要从内存中读取输入并直接将结果保存在内存中。像这样的 nn-X 不能进行扩展,且其 DPS 单元的利用率永远不会超过 75–80%。

设计方面有类似限制的系统也会有性能方面的限制。

我们所需的是一个带有数据缓存的系统,它可以使用任意组 DPS 单元来有效地(近乎 100% 地)利用资源。这种系统有 Microsoft Catapult 和我们的 SnowFlake 加速器,后者的利用率几乎可以达到 100%(更多内容即将呈现)。

微软使用 Altera 器件来实现创纪录的深度神经网络处理性能。不幸的是它并不是一个商业化的系统,而是一项微软的数据中心资产,因而还未对公众开放。中国的科技巨头企业百度也加入了这一队列。

定制 SoC

高通、AMD、ARM、英特尔和英伟达都在致力于将定制化芯片整合进它们的现有解决方案中。Nervana 和 Movidius(目前都在英特尔旗下)已经或者说正在开发集合方案。SoC 在同一技术节点上所能提供的性能大约是 FPGA 系统的 10 倍,在特定结构中还要更高。由于 SoC 和处理器所需的功率变得越来越低,其区别将来自于新的集合内存系统和带宽对外部存储器的有效利用。在这一领域,整合为 systems-on-a-package(SOP)的 3D memory 至少可以节约 10 倍的功率。

DSP

DSP 已经存在了很长一段时间,它最初是用来执行矩阵算法的。但到目前为止,DSP 并没能真正提供任何有用的性能或是可以与 GPU 相匹敌的器件。为什么会这样呢?其主要原因就是核数量。DSP 主要用于电信系统,且无需拥有 16 个或 32 个以上的核。其工作负载并不需要这么多。相反,GPU 负载在近 10~15 年间一直在增加,因此它需要更多的核。最终,大约从 2006 年开始,英伟达的 GPU 在性能上就超过了 DSP。

Texas Instruments 公司还在开发 DSP,但是我们从中并没有看到任何有竞争力的性能。且许多 DSP 也已经被 FPGA 取代了。

Qualcomm 在它们的 SoC 中使用 DSP,并且其性能会有所加速,但是目前还没有足够多的信息来将它与其它的解决方案进行比较。

  原文链接:https://medium.com/towards-data-science/hardware-for-deep-learning-8d9b03df41a

©本文为机器之心编译,转载请联系本公众号获得授权

  ?------------------------------------------------

加入机器之心(全球招聘):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容