去年 4 月,PingWest品玩曾经介绍过 Movidius Fathom:一枚藏在 U 盘里的深度学习计算棒。 之后没多久,英特尔就收购了计算棒背后的 Movidius,一家总部位于爱尔兰都柏林的深度学习技术公司。一年后,atv,Movidius 完成了与英特尔新技术事业部的整合,重新设计了 Fathom 的外观,将产品重新命名为 Neural Compute Stick(神经计算棒,以下简称 NCS)。 PingWest品玩获悉,今天这款产品正式开始销售。
和显卡、FPGA(现场可编程门阵列)等高功率、高性能,可用于训练神经网络的设备不同,Neural Compute Stick 更偏向神经网络的“推理”(inferencing),也即将训练好的神经网络投入使用。 低功耗是 NCS 的最大优势。在不增加耗电的前提下解放主机处理器,赋予深度学习能力,是 NCS 的主要用途。 在训练神经网络相比,推理神经网络所需的计算极大减少。然而在很多终端产品(比如机器人)上,由于整体功耗和成本限制,不能添加 Wi-Fi 模块保持随时联网,也不能放太强的处理器,这就导致 CPU 核心被本地推理神经网络的任务占用,没有足够的额外算力去做其他事情(比如无人机的飞控等等)。
受到计算能力和功耗的制约,“终端深度学习”(deep learning on edge) 目前境地比较尴尬——却正好是 NCS 的用武之地。 我去英特尔办公室查看了几个 NCS 和英特尔“欧几里得” (Euclid) 开发套件配合使用的 demo 环境。欧几里得上有一个 RealSense 视觉感知模块,处理器、显卡、逻辑主板、内存、接口、电池、Wi-Fi/蓝牙等一应俱全,可以理解为一台小电脑。 用欧几里得单机运行一个比较主流的 Alex-net 物体识别网络,直接将主机 CPU 占用率推到了 90%+,内存占用超过了 30%,输出的图像帧率降到了 5FPS,atv,功耗超过了 8W;把 NCS 插到欧几里得上之后,推理 Alex-net 的计算下行到了 NCS 上, CPU占用率只有 30%,内存占用降低到了 2.5%,帧率升至 10FPS,总体功耗降低到了 2.25W。 NCS 内置 Movidius 自行设计研发的 Myriad 2 VPU(视觉处理单元)。如果说摄像机、传感器是计算机视觉的“眼睛”,VPU 就是的“大脑”。与适合多种计算用途的 CPU、GPU 不同,Myriad 专门为计算机视觉进行优化,可以用于 3D 扫描建模、室内导航、360°全景视频等更前沿的计算机视觉用途。
采用新制程工艺生产的 Myriad 2,1W 功率范围内的性能达到了惊人的一千亿次浮点运算,“即插即用”实现本地低功耗实时分析、调试和部署深度神经网络。 在适配性上,NCS 原生支持业界主流的 Caffe 框架,强大的运算性能可以本地运行卷积神经网络,内部人士告诉我未来很快就会加入 TensorFlow 支持。
NCS 原型机(Movidius 给了我一枚做纪念) 为什么从去年发布到现在,拖了一年才开始发售?很重要的一个原因在于英特尔提供了重要的供应链资源,降低了生产成本,建议零售价从去年的 99 美元砍到了 79 美元。这个价格能让 NCS 更受机器学习研究员和工程师的欢迎,Movidius 的调研显示该群体在全球大约有 60 万人左右。 在 Movidius 的预想中,机器人创业公司可以用 NCS 来开发具备计算机视觉能力的原型产品,如果有创客对引入神经网络感兴趣,也可以购买 NCS 来减轻自己的开发压力。 USB-A 接口使得 NCS 的泛用性很强,也可以插到主机上,完成一些简单的部署工作即可对电脑、服务器的神经网络运行带来显著优化。不仅如此,同时插入多枚 NCS,也将带来线性的性能提升(实验室测试最多同时插入 4 枚)。
英特尔将在夏威夷举办的计算机视觉学术会议 CVPR 上,以及通过两家指定的在线供应商销售这枚神经网络计算棒。更进一步,Movidius 也希望能获得深度学习生态链的上游——框架开发者的青睐。据 PingWest品玩了解,目前这种计算棒类型的深度学习推理设备在市场上还没有第二款,不过也有一些大公司和创业公司在低功耗领域内发力——好在这次,英特尔已经通过收购提前抢占了市场。 “希望 NCS 能成为深度学习人士最常用的工具。”一位内部人士告诉PingWest品玩。 在硅谷创新大道101号,英特尔把办公楼变成无人驾驶研发工厂 英特尔说数据是人工智能时代的石油,而中国将有8000EB的数据 做芯片的英特尔,为什么砸了153亿美元在自动驾驶上? 英特尔的厂子,特朗普的面子 (责任编辑:本港台直播) |