此外,Google从单芯片TPU芯片(PCI-Express插槽向TPU卡供电)转移到单芯片TPU2板设计共享双OPA端口和交换机,以及为每个TPU2芯片提供两个专用的BlueLink端口。 OPA和BlueLink都增加了TPU2板级功耗。 Google的开放计算项目机架规格设备显示6千瓦,12千瓦和20千瓦的电力输送配置文件; 20千瓦的功率分配可以实现90瓦的CPU处理器插座。我们猜测,使用Skylake一代Xeon处理器和处理大部分计算负载的TPU2芯片,机架A和D可能使用20千瓦电源。 而机架B和C就是另一个不同的故事了。功率输送为30千瓦,能够为每个TPU2插座提供200瓦的功率输送;每个机架36千瓦将为每个TPU2插座提供250瓦的功率输送。36千瓦是一种常见的高性能计算能力传输规范。我们认为,每芯片250瓦功耗也是Google愿意为上述巨大的TPU2散热器支付的唯一原因。因此,单个TPU2 机柜的功率传输可能在100千瓦至112千瓦范围内,并且可能更接近较高数量。 这意味着TRC在满负荷运行时消耗将近一百兆瓦的功率。虽然四枚邮票部署成本昂贵,但却是一次性的资本费用,并不占用大量的数据中心空间。然而,半数兆瓦的电力是大量经营费用,持续资助学术研究,即使是一家Google规模的公司。如果TRC在一年内仍然运行,这表明Google正在认真研究其TPU2的新用例。 TPU2 机柜包含256个TPU2芯片。每个TPU2芯片的性能为45 teraflops,每个stamp产生总共11.5 petaflops的深度学习加速器的性能。这是令人印象深刻的,即使它确实是FP16的高峰表现。深度学习训练通常需要更高的精度,因此FP32矩阵乘法性能可能是FP16性能的四分之一,或者每个机柜约为2.9 petaflop,整个TRC为11.5 FP32 petaflops。 在峰值性能方面,这意味着在整个机柜上的FP16操作(不包括CPU性能贡献或位于机柜之外的存储),每千瓦跳跃到115吉比特每千瓦。 英特尔公布了双插槽Skylake生成Xeon核心计数和功耗配置后,可以计算Xeon处理器的FP16和FP32性能,并将其增加到每瓦特的总体性能。 关于Google的TPU2机柜行为还没有足够可靠的信息将其与像Nvidia的“Volta”这样的新一代商业加速器产品进行比较。架构的差别太大了,无需对同一任务中的两个架构进行基准测试。比较峰值FP16的性能就像将两台具有不同处理器,存储器和基于处理器频率的图形选项的PC的性能进行比较。 也就是说,我们认为真正的比赛不在芯片级别。挑战是将计算加速器扩展到普通比例。NVIDIA公司正在采用NVLink的第一步,从处理器上获得更大的加速器独立性。Nvidia正在将其软件基础架构和工作负载从单一GPU扩展到GPU集群。 Google选择将其原始TPU扩展为直接链接到处理器的协处理器。TPU2还可以进行扩展,作为以直接2:1比例的加速器进行处理任务。然而,TPU2超网格编程模型似乎没有可以将扩展任务做得很好的工作负载。但是,Google正在寻找第三方帮助来查找使用TPU2架构扩展的工作负载。 (责任编辑:本港台直播) |