wzatv:【j2开奖】学界 | 不同硬件不同网络，横向对比五大深度学习框架（附论文第七版）(2)_本港台直播_J2开奖直播

FCN-R：在我们的测试中，mini-batch 的大小设置为 4096，结果如图 16 所示。在图 16(a) 中，我们可以看到 Caffe、CNTK 和 MXNet 的速度非常接近单 GPU 的情况；而在 TensorFlow 和 Torch 上的表现则相对好一点。当 GPU 数量翻倍时，CNTK 和 MXNet 的可扩展性最好，atv，直播，均实现了约 35% 的提速，Caffe 实现了大约 28% 的提速，而 Torch 和 TensorFlow 较差，只有约 10%。当我们把 GPU 数量从 2 个增加到 4 个时，TensorFlow 和 Torch 没有实现进一步的提速。

wzatv:【j2开奖】学界 | 不同硬件不同网络，横向对比五大深度学习框架（附论文第七版）

图 16：(a) FCN-R 在多 GPU 平台上的性能比较，(b) 在多 GPU 平台上的收敛速度

wzatv:【j2开奖】学界 | 不同硬件不同网络，横向对比五大深度学习框架（附论文第七版）

图 17：(a)AlexNet-R 在多 GPU 平台上的性能比较，(b) 在多 GPU 平台上的收敛速度

wzatv:【j2开奖】学界 | 不同硬件不同网络，横向对比五大深度学习框架（附论文第七版）

图 18：(a)ResNet-56 在多 GPU 平台上的性能比较，(b) 在多 GPU 平台上的收敛速度

结论

本研究旨在对比现代深度学习软件工具的运行性能，测试它们在不同类型的神经网络和不同的硬件平台上的执行效率。我们的实验结果表明，目前所有经过测试的工具都可以很好地利用 GPU，和使用 CPU 相比有着很大优势。然而，没有任何一个工具可以在所有方面胜过其他软件工具，这意味着也许存在进一步优化性能的方向。

在未来的研究中，首先，我们会将更多的深度学习软件工具（如百度的 Paddle）和硬件平台（如 AMD 的 GPU 和英特尔 Xeon Phi）纳入这项基准研究。其次，我们计划评估在高性能 GPU 集群上这些工具的可扩展性。

　　?------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]

(责任编辑：本港台直播)