有趣的是,英伟达 CEO 黄仁勋昨天亲自在官博发表署名文章,将 TPU 和英伟达的最新品 P40 做了比较——尽管外界都已经意识到,TPU 论文里没有将第一代 TPU 跟英伟达最新款的 GPU 做比较,但黄仁勋显然还是忍不住。 黄仁勋文章的结果是,英伟达 Tesla P40 在 GoogleNet 推断任务中的性能是 Google TPU 的 2倍。不仅如此,P40 的带宽也是 TPU 的十倍还多。 但是,这篇文章并没有如想象中那样“更新”GPU与 TPU 的性能,而是引来了各界的无情吐槽。在Twitter、Reddit 和 HackerNews 等技术网站,网友纷纷指出,首先,相同情况下,TPU 的能耗是 75W,而 P40 的能耗是 250W。此外,谷歌论文里的是第一代 TPU(2015 年部署在谷歌数据中心),现在肯定已经升级好几代了——黄仁勋用最新 GPU与第一代TPU对比,GPU性能更优也无疑是必然的结果。 不过,黄仁勋在文章里指出的以下几点值得注意: “虽然Google和NVIDIA选择了不同的开发道路,但我们的方法中还是有一些共同点。特别是: 人工智能需要加速计算。在摩尔定律放缓的时代,加速器提供了深度学习重要的数据处理需求。 张量处理是深度学习训练和推理性能的核心。 张量处理是企业在构建现代数据中心时必须重点考虑的新工作量(wordload)。 加速张量处理可以大大降低修建现代数据中心的成本。 TPU 是深度学习的未来吗? 鉴于深度学习近年来强劲的影响力,连《福布斯》这样的大众媒体都对谷歌TPU 进行了分析报道,作者 Kevin Murnane 指出,论文中给出的这些对比的数字非常厉害,但是必须注意以下几点,才能说 TPU 是深度学习的未来。 首先,Google 在测试中使用的是 2015年初生产的芯片。自那以后 Nvidia 和 Intel 都对自己的芯片进行了升级改进,因此与现在的芯片比较结果会怎样我们还无法知道。不过,尽管如此,两年前 TPU 的优势就已经如此巨大,Intel 和 Nvidia 不大可能把这个差距完全消除。 还有一个更重要的考虑因素是芯片性质的比较。Intel 的 CPU 是专为灵活性设计的通用芯片,一次运行的进程数量有限。Nvidia 的 GPU 是专为一次运行许多神经网络计算设计的通用芯片。而 Google 的 TPU 是专门用于在 TensorFlow 中执行特性功能的 ASIC(专用集成电路)。 CPU 的灵活性最大,它可以运行各种各样的程序,包括使用各种软件库的深度学习网络执行的学习和推理。GPU 不像 CPU 那样灵活,但它在深度学习计算方面更好,因为它能够执行学习和推理,并且不局限于单个的软件库。该测试中的 TPU 则几乎没有灵活性。它只能在 TensorFlow 中执行推理,但它的性能非常好。
早期的生成深度学习网络 深度学习计算中的芯片部署都不是零和博弈。现实世界的深度学习网络需要系统的 GPU 与其他 GPU 或诸如 Google TPU 之类的 ASIC 通信。GPU 是理想的工作环境,具有深度学习所需的灵活性。但是,当完全专用于某个软件库或平台时,则 ASIC 是最理想的。 谷歌的 TPU 显然符合这样的要求。TPU 的卓越性能使得 TensorFlow 和 TPU 很可能是一起升级的。虽然谷歌官方已经多次明确表示,他们不会对外销售 TPU。不过,利用 Google 云服务做机器学习解决方案的第三方可以得益于 TPU 卓越性能的优势。 智能芯片市场格局一变再变,谷歌 TPU 的出现让面向神经网络/深度学习特定领域加速的芯片趋势更加明显。高端 AI 应用需要强大的芯片做支撑。软硬件缺了哪一块中国的智能生态也发展不起来。中国处理器学术和工程都在不断提高,我们期待中国芯早日出现在世界舞台与国际同行竞技。 参考资料 包云岗,《说点Google TPU的题外话》 CPUinNUDT,j2直播,《基于论文,对谷歌 TPU 的最全分析和专业评价》 https://www.forbes.com/sites/kevinmurnane/2017/04/10/the-great-strengths-and-important-limitations-of-googles-machine-learning-chip/#2ff4fbca259f https://blogs.nvidia.com/blog/2017/04/10/ai-drives-rise-accelerated-computing-datacenter/ (责任编辑:本港台直播) |