本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:谷歌二代TPU到底有什么秘密?听听专家怎么说的

时间:2017-06-02 15:11来源:118图库 作者:j2开奖直播 点击:
智东西(公众号:zhidxcom) 编 | 海中天 导读:在2017年谷歌I/O大会上,二代TPU亮相,它比一代TPU更强大。到底TPU是什么?有什么新的变化?Nextplatform记者Nicole Hemsoth一个月前采访了谷歌著

智东西(公众号:zhidxcom)

编 | 海中天

导读:在2017年谷歌I/O大会上,二代TPU亮相,它比一代TPU更强大。到底TPU是什么?有什么新的变化?Nextplatform记者Nicole Hemsoth一个月前采访了谷歌著名硬件工程师Norman Jouppi,打听了一些内幕,他还收集了许多资料,对二代TPU深入分析。

让我们听听Nicole Hemsoth是怎样解释的:

码报:谷歌二代TPU到底有什么秘密?听听专家怎么说的

一个月前,我曾与谷歌著名硬件工程师Norman Jouppi交流过,讨论的重点是TPU(tensor processing unit),谷歌用TPU让深度学习推理加速,不过设备(第一代TPU)已经有点过时了。

在今年的I/O大会上,谷歌夺走了Volta GPU的风头,Volta GPU是Nvidia最近推出的,谷歌透露了二代TPU的细节,二代TPU系统板的运算速度达到180万亿次,相当惊人,它既可以训练,也可以推理,定制网络将TPU组合成“TPU Pods”,计算能力可以与世界前500强的超级计算机媲美,最高峰值速度达到11.5 petaflops(每秒千万亿次)。

Dean解释说:“我们拥有一个才华横溢的ASIC设计团队,他们开发了第一代TPU,还有许多同类的人参与项目。与一代TPU相比,二代TPU的设计与整体系统更接近,它更小,因为我们只在一块芯片上推理。训练流程要求更高,因为我们既要从整体上思考底层设备,还要理解它们是如何与大型系统连接的,比如Pods。”

我们将会密切关注谷歌,深入了解定制网络架构,下面这些资料是我们从预先准备的高级简报中提炼出来的,它们与最新的TPU有关;我们还试图理解新TPU是如何组成机柜、堆叠在一起的,最终它们的性能达到超级计算机的水平。谷歌没有透露二代TPU芯片或者主板的规格,不过幸好有一张图片,我们可以由此向后进行数学推导。

有些人可能看过许多的超级计算机主板,对于他们来说,开奖,谷歌TPU2与Cray XT或者XC架构也许有点像,这点很有趣,只是互联的芯片似乎是焊接在主板中央的,连接外部世界的接口放在主板外部。TPU2共有4个TPU2单元,每一个的最大峰值吞吐量(Peak Throughput)约为180万亿次,这点我们在上文已经提到过。我们姑且假定它所使用的是16位半精度浮点。

主板的左侧和右侧各有4个连接接口,左侧还有2个接口。如果每一个TPU2板卡直接连接到闪存,那将是十分有趣的一件事,AMD未来即将推出的Vega Radeon Instinct GPU加速器就是这样设计的。左侧的另外2个接口可以直接连接到存储单元,或者向上连接到网络的更高层级,从而让TPU互联起来,形成更复杂的处理系统。

如果非要猜测,每一个TPU2单元应该有2个接口连接到外部世界,跨越机柜,左侧两个多出来的接口一个用来连接本地存储单元,一个作为机柜内部的互联节点。

下面就是TPU2主板“Pod”的样貌,谷歌说它们处理机器学习数据的整体能力达到11.5 petaflops(千万亿次)。

码报:谷歌二代TPU到底有什么秘密?听听专家怎么说的

仔细观察就会发现,它们似乎是“Open Compute(开放计算)”机柜,或者说它的尺寸与Open Compute机柜差不多,可能稍宽一些。上面共有8行TPU单元,每组有4块TPU板卡,水平放置。这些机柜到底是全深度机柜还是一半深度,我们无法清楚知道。你可以看到TPU2机柜的计算节点从一侧伸出来,这一侧有6个接口,当中的2个接口向上连接到一个机框。

在TPU2 机框的最顶行,两个接口向上延伸,进入另一个机框,里面似乎没有安装TPU2单元。照猜测它是一个准系统(Bare bone)闪存机框,以很高的速度为TPU存储本地数据。不论怎样,主板至少有32个TPU2,也就是说一个机柜至少有128个TPU。计算一下就会知道,每一个Pod由2个机柜和蓝色罩子组成,它的计算力应该是11.5 petaflops。

在生产端,如此强大的计算力到底有什么好处呢?谷哥最新的大型翻译模块是用32个最棒的商用GPU(可能是Pascal)训练的,要花一整天训练,现在只需要1/8的TPU就能在一个下午完成。请注意,TPU是专门为TensorFlow优化过的,商用GPU(哪怕是高端GPU)瞄准的是通用目的,它既要完成高精度工作,也要完成低精度工作。从这个案例就可以看出,谷歌推出自有ASIC在投资回报方面是没有什么问题的。

还有一点要注意,第一代TPU也许已经拥有强大的推理能力,既快速又高效,不过模型必须先从GPU训练集群中移出,如果要将新模型或者重新训练的模型正式部署起来,实验过程就会变慢,谷歌开发者必须等更长的时间才能拿到结果,然后重复工作。正是因为这个原因,对于深度学习硬件来说,在单个设备上训练/推理就是研究的“圣杯”,现在我们终于走到了转折点,可以用多种方法解决此问题;未来还可以用英特尔 Knights Mill或者Nvidia Volta GPU。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容