本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】谷歌 TPU 的强大与局限:TPU/GPU/CPU性能功耗全面对比(2)

时间:2017-04-16 19:03来源:668论坛 作者:118KJ 点击:
当时,TPU 团队主要负责人、计算机体系结构领域大牛 Norm Jouppi 介绍,TPU 专为谷歌 TensorFlow 等机器学习应用打造,能够降低运算精度,在相同时间内处理更

  当时,TPU 团队主要负责人、计算机体系结构领域大牛 Norm Jouppi 介绍,TPU 专为谷歌 TensorFlow 等机器学习应用打造,能够降低运算精度,在相同时间内处理更复杂、更强大的机器学习模型并将其更快投入使用。Jouppi 表示,谷歌早在 2013 年就开始秘密研发 TPU,并且在一年前将其应用于谷歌的数据中心。2016年 TPU 消息刚刚公布时,Jouppi 在 Google Research 博客中特别提到,TPU 从测试到量产只用了 22 天,其性能把人工智能技术往前推进了差不多 7 年,相当于摩尔定律 3 代的时间

  在公布自行设计 TPU 芯片时,Google 并没有透露更多有关芯片架构或功能的信息,所以引发了许多猜测。上周,谷歌终于公开了 TPU 的论文,我们也终于得以了解 TPU 的技术细节。当然,这也掀起了新一轮的讨论热潮。

  TPU 重磅论文解密架构设计,75 位联合作者,“能效比CPU/GPU 高30~80倍”

  谷歌上周公布的 TPU 论文《在数据中心分析中对张量处理器性能进行分析》。论文联合了一共 75 位作者,由大牛 Norman Jouppi 领衔,堪称“重磅”。

  

报码:【j2开奖】谷歌 TPU 的强大与局限:TPU/GPU/CPU性能功耗全面对比

摘要

  许多架构师认为,现在只有领域定制硬件(domain-specific hardware)能带来成本、能耗、性能上的重大改进。本研究评估了自2015年以来部署在各数据中心,用于加速神经网络(NN)的推理过程的一种定制 ASIC 芯片——张量处理器(TPU)。TPU 的核心是一个65,536的8位矩阵乘单元阵列(matrix multiply unit)和片上28MB的软件管理存储器,峰值计算能力为92 TeraOp/s(TOPS)。与CPU和GPU由于引入了Cache、乱序执行、多线程和预取等造成的执行时间不确定相比,TPU 的确定性执行模块能够满足 Google 神经网络应用上 99% 相应时间需求。CPU/GPU的结构特性对平均吞吐率更有效,而TPU针对响应延迟设计。正是由于缺乏主流的CPU/GPU硬件特性,尽管拥有数量巨大的矩阵乘单元 MAC 和极大的偏上存储,TPU 的芯片相对面积更小,耗能更低。

  我们将 TPU 与服务器级的 Intel Haswell CPU 和 Nvidia K80 GPU 进行比较,这些硬件都在同一时期部署在同个数据中心。测试负载为基于 TensorFlow 框架的高级描述,应用于实际产品的 NN 应用程序(MLP,CNN 和 LSTM),这些应用代表了我们数据中心承载的95%的 NN 推理需求。尽管在一些应用上利用率很低,但 TPU 平均比当前的 GPU 或 CPU 快15~30倍,性能功耗比(TOPS/Watt)高出约 30~80 倍。此外,在 TPU 中采用 GPU 常用的 GDDR5 存储器能使性能TPOS指标再高 3 倍,并将能效比指标 TOPS/Watt 提高到 GPU 的 70 倍,CPU 的 200 倍。

  也就是在这篇论文中,谷歌公布了第一代 TPU(谷歌于 2015 年就在其数据中心部署)的设计图及其他细节。

  

报码:【j2开奖】谷歌 TPU 的强大与局限:TPU/GPU/CPU性能功耗全面对比

  谷歌上周公布的论文中,给出了第一代 TPU 的电路板细节。可以插入服务器的一个SATA盘位中,但卡使用的是PCIEGen3x16连接。

报码:【j2开奖】谷歌 TPU 的强大与局限:TPU/GPU/CPU性能功耗全面对比

  TPU 模块图。主要的计算部件是右上角的黄色矩阵乘单元。输入是蓝色的权重数据队列FIFO和蓝色的统一缓冲(Unified Buffer),输出是蓝色的累加器(Accumulators)。黄色的激活单元在累加之后执行非线性函数,然后数据返回统一缓冲区。

  

报码:【j2开奖】谷歌 TPU 的强大与局限:TPU/GPU/CPU性能功耗全面对比

  TPU晶圆的布局规划。形状与图1中一致。亮(蓝)色的数据缓冲占据晶圆面积的37%,亮(黄)色的计算部分占据30%,中(绿)色I/O部分占10%,而暗(红)色的控制仅占2%。控制部分在CPU或者GPU中都比TPU更大(并且也更难设计)。

  谷歌称 TPU 为张量处理单元,专为 TensorFlow 定制设计,TensorFlow 是 Google 的一个开源机器学习软件库。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容