本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】FPGA 超越 GPU,问鼎下一代深度学习主引擎(2)

时间:2017-04-01 18:35来源:本港台直播 作者:118开奖 点击:
新兴的低精度和稀疏DNN算法效率较之传统的密集FP32 DNN有巨大改进,但是它们引入了GPU难以处理的不规则并行度和定制数据类型。相比之下,FPGA正是设计用

  新兴的低精度和稀疏DNN算法效率较之传统的密集FP32 DNN有巨大改进,但是它们引入了GPU难以处理的不规则并行度和定制数据类型。相比之下,FPGA正是设计用于在运行不规则并行度和自定义数据类型时实现极端的可定制性的。这样的趋势使未来FPGA成为运行DNN、AI和ML应用的可行平台。Randy Huang博士说:“FPGA专用机器学习算法有更多的余量。图2说明了FPGA的极端可定制性(2A),可以有效实施新兴的DNN(2B)。”

wzatv:【j2开奖】FPGA 超越 GPU,问鼎下一代深度学习主引擎

  图2

  3

  研究所用的硬件和方法

  微信编辑器 构思编辑器

wzatv:【j2开奖】FPGA 超越 GPU,问鼎下一代深度学习主引擎

  GPU:使用已知的库(cuBLAS)或框架(Torch with cuDNN)

  FPGA:使用Quartus Early Beta版本和Power Play

wzatv:【j2开奖】FPGA 超越 GPU,问鼎下一代深度学习主引擎

  图3:GEMM测试结果。

  GEMM是DNN中的关键操作

  在低精度和稀疏DNN中,Stratix 10 FPGA 比 Titan X GPU的性能更好,甚至性能功耗比要更好。未来这类DNN可能会成为趋势。

  4

  研究1:GEMM测试

  微信编辑器 构思编辑器

  DNN 严重依赖GEMM。常规DNN依靠FP32密集GEMM。然而,较低的精度和稀疏的新兴DNN 依赖于低精度和/或稀疏的GEMM 。Intel 团队对这些GEMM进行了评估。

  FP32 密集GEMM

  由于FP32密集GEMM得到了很好的研究,该团队比较了FPGA和GPU数据表上的峰值。 Titan X Pascal 的最高理论性能是Stratix 10 的11 TFLOPs和9.2 TFLOPs。图3A显示,带有多得多的DSP 数量的Intle Stratix 10 将提供比Intel Arria 10 更强大的FP32性能,和Titan X 的性能表现接近。

  低精度INT6 GEMM

  为了显示FPGA的可定制性优势,该团队通过将四个int6打包到一个DSP模块中,研究了FPGA的Int6 GEMM。对于本来不支持Int6 的GPU,他们使用了Int8 GPU 的峰值性能进行了比较。图3B显示,Intel Stratix 10 的性能优于GPU。FPGA比GPU提供了更引人注目的性能/功耗比。

  非常低精度的1位二进制GEMM

  最近的二进制DNN 提出了非常紧凑的1bit数据类型,允许用xnor 和位计数操作替换乘法,非常适合FPGA。图3C显示了团队的二进制GEMM测试结果,其中FPGA 基本上执行得比GPU 好(即,根据频率目标的不同,为~2x 到 ~10x)。

  稀疏GEMM

  新出现的稀疏DNN包含许多零值。该团队在带有85%零值的矩阵上测试了一个稀疏的GEMM(基于已修剪的Alex Net)。该团队测试了使用FPGA的灵活性以细粒度的方式来跳过零计算的 GEMM 设计。该团队还在 GPU 上测试了稀疏的 GEMM,但发现性能比在GPU 上执行密集的 GEMM 更差(相同的矩阵大小)。该团队的稀疏 GEMM 测试(图3D)显示,FPGA 可以比 GPU 表现更好,具体取决于目标 FPGA 的频率。

wzatv:【j2开奖】FPGA 超越 GPU,问鼎下一代深度学习主引擎

  图4:DNN精度的趋势,以及FPGA和GPU在

  Ternary ResNet DNN上的测试结果。

  5

  使用三进制ResNet DNN 测试

  微信编辑器 构思编辑器

  三进制DNN最近提出神经网络权重约束值为+1,0或-1。这允许稀疏的2位权重,并用符号位操作代替乘法。在本次测试中,该团队使用了为零跳跃、2位权重定制的FPGA设计,同时没有乘法器来优化运行Ternary-ResNet DNN 。

  与许多其他低精度和稀疏的DNN 不同,三进制DNN可以为最先进的DNN(即ResNet)提供可供比较的精度,如图4A所示。“许多现有的GPU和FPGA研究仅针对基于Alex Net(2012年提出)的ImageNet的足够好的准确性。最先进的ResNet(在2015年提出)提供比Alex Net高出10%以上的准确性。在2016年底,在另一篇论文中,我们首先指出,ResNet上的低精度和稀疏三进制DNN 算法可以在全精度Res Net 的±1%的精度范围内实现。这个三进制ResNet 是我们在FPGA研究中的目标。因此,我们首先论证,FPGA可以提供一流的(ResNet)Image Net精度,并且可以比GPU更好地实现。”Nurvitadhi说。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容