本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【图】业界 | 深度学习芯片公司Graphcore初探:颠覆GPU、FPGA和CPU的新一代处理器IPU(2)

时间:2017-03-26 02:42来源:天下彩论坛 作者:开奖直播现场 点击:
Graphcore IPU 的技术直到今年下半年才予以公开,尽管未提及任何与现存架构有关的细节,但我们仍旧发现了一些有趣的新东西。首先,整个神经网络模型适

Graphcore IPU 的技术直到今年下半年才予以公开,尽管未提及任何与现存架构有关的细节,但我们仍旧发现了一些有趣的新东西。首先,整个神经网络模型适合于处理器(而不是存储器)。这上千块简单内核并不依赖通往外部储存器的狭长而延迟的路径,它们可以进行内部存储而不产生跳跃。Toon 的说法最有意思:「即使尽力添加 HBM 和 3D 堆栈,你指的仍旧是在 700 GB 每秒的数量级水平访问外部储存器,j2直播,而我们通过将模型置于处理器内,在外部储存器中约有 100X 的带宽到内存」。当然,这里指的是设备的总内存带宽。

Toon 说:「我们正在尝试将图形映射到图形处理器,即 IPU 中。其关键是要让软件允许采取这些复杂结构,并映射到一个将维持模型所需的全部内存包含在内,且高度并行的处理器中。将神经网络扩展成图形后,软件便会将它映射到一个相对简单的处理器中,这个处理器有些属性很有趣,如一个完全由编译器控制的十分丰富的互连系统。互连和内核本身便具有许多创新——我们使用的不是标准内核,在一个芯片上有一千多个。」他指出,这是真正的千块内核,能够与 Nvidia 分割 56 个处理器块而成的大量内核相比。他说:「这是 Nvidia 面临的困难,也是我们在努力解决的问题——在 GPU 情境中,若要在 56 个块间使用 GPU 共享数据,我能做到的唯一方法是写入外部存储器后再次读回。」他说,为数千内核构建架构需要一个不同的结构——它不依赖于推送数据至外部存储器,在内部共享并置于处理器中,且在所有内核之间负载平衡。

因此我们可以假设这种架构和一些非标准内核可能存在自定义互连,所以下一个问题便与精度有关——一个 Nvidia 所擅长的,使用 Pascal 处理工作负载的领域。提取关于这些芯片具体作用的信息很难,但若以提示的方式,Toon 说:「实际情况是,你需要对某一点提供 32、16 及量化整数的支持;但不需要双精度,那是在浪费硅。」

「整个模型都处于处理器内部,所以认为内存作用于处理器并不妥当,但处理器具有前所未见的内存级别,进而能够在内部存储这些复杂模型,这使计算得以更高效地部署,来操纵模型中高度稀疏的数据结构……我们拥有能够简化编译器的复杂指令集——如果你能使一个处理器易于编译,就有可能使编译器更具复杂性。若指令集相同,它们会在同一周期中运行,并且我能运行更多操作,从而使编译器更具复杂性。」

图形方法使机器学习用户的结构能够暴露大量并行性(比如,每个顶点可能有 2500 万个参数),这是可以应用于大型并行机器的大量并行计算。但数据中同样存在麻烦的层和关系级别:一个顶点也许能够与几十甚至几千个其他顶点相连接,而这些顶点自身又与许多其他顶点相连。因此,尽管想要将图中的数据映射到传统的线性寻址存储器中,却只有距离最近的两位「邻居」,而真正需要的却是能够在大量存储器中散布的东西(这同样需要进行操作、编写返回等等)。重点在于,我们需要的是能够在几乎无限的存储器带宽约束中收集数据并编写返回的机器。这便是引起一片哗然的稀疏问题,但 Toon 说他们已经完成了这个挑战。

谈及稀疏问题时,Toon 认为用户正将计算元素浪费在大型向量中。「回到训练与推理的矛盾问题。在训练中,你牺牲了内存大小来诱导一些数据并行性,使之适用于一个向量(如为了图像训练而并行化为小批量),并用这些小批量在宽向量的 GPU 上填充向量。但问题的每个计算阶段都要对内存进行乘法运算,所以不可能进行推断,因为有一个新的数据要理解——没有任何一组数据并行且输入机器,而这就是 GPU 在推理中为什么低效的原因」。

Toon 说,训练和推理只是对图形的操作,它的计算密集度更高,因为图形必须通过许多层和迭代来建立正确的特征和权重;但对推理而言,部署这样的服务可能需要数千用户有很大的计算量。「倘若我能成功构建一台能够进行训练和推理,同时在图形结构方面也很高效的机器,那么这将有助于我打造在时间中不断学习、越来越好的未来网络」。

今年下半年我们会得到一个完整的简报,帮助我们把它正确置于游戏中并完全理解其中的互连与核心故事(core stories),更不用说,还包括设备中蕴含大量内存的魔法球环绕在何处。当 CPU 在占有服务器市场,并且在目的过于通用的 GPU 为了互连或带宽而无休止地削减硬件(面对不断增长的模型复杂性)的同时,Toon 也在进行倒计时。

在后续文章中,我们将通过描述 Graphcore IPU 基于 C ++ 和 Python 的「Poplar」软件框架,来给予更多提示。

  原文链接:https://www.nextplatform.com/2017/03/09/early-look-startup-graphcores-deep-learning-chip/

  本文为机器之心编译,转载请联系本公众号获得授权

  ?------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容