雷锋网(搜索“雷锋网”公众号关注)按:本文作者李一雷,UCLA博士生,高通(射频组)实习工程师,矽说(微信号:silicon_talks)主笔。 人工智能方兴未艾,无数初创公司和老牌公司都在积极开发以人工智能应用为卖点的智能硬件。目前,强大的云端人工智能服务(如谷歌的 Alpha Go)已经初现端倪,atv,同时,人们也希望能把人工智能也带到移动终端,尤其是能够结合未来的物联网应用。 传统实现移动终端人工智能的方法是通过网络把终端数据全部传送到云端,之后在云端计算后再把结果发回移动端,例如苹果的 Siri 服务。 然而,这样的方式会遇到几个问题。第一,使用网络传输数据会产生延迟,很可能数据计算的结果会需要等待数秒甚至数十秒才能传送回终端(使用过 Prisma app 处理过照片的朋友们应该深有体会)。这样一来,那些需要立刻得到计算结果的应用就不能用这种方式。例如无人机上使用的深度学习躲避障碍物算法,如果它全部在云端执行恐怕计算结果还没送回来无人机已经掉下来了。 第二,一旦使用网络传送数据,那么数据就有被劫持的风险。因此,那些要求低计算延迟以及对于数据安全性非常敏感的应用就需要把人工智能算法全部在终端实现,或者至少在终端完成一些预处理运算然后再把少量运算结果(而不是大量的原始数据)传送到云端完成最终计算,这就需要移动终端硬件能够快速完成这些运算。另一方面,移动端硬件完成这些运算需要的能量又不能太多,否则电池一下就没电了(想在手机上配功耗 200W+的 Nvidia Pascal 显卡肯定不行!)。 目前,许多公司正在积极开发能实现移动端人工智能的硬件。对于移动端人工智能硬件的实现方法,有两大流派,即 FPGA 派和 ASIC 派。FPGA 流派的代表公司如 Xilinx 主推的 Zynq 平台,而 ASIC 流派的代表公司有 Movidius。两大流派各有长短,下面让我来细细分说。 FPGA vs. ASIC 首先讲讲 FPGA 和 ASIC 的区别。FPGA 全称「可编辑门阵列」(Field Programmable Gate Array),其基本原理是在 FPGA 芯片内集成大量的数字电路基本门电路以及存储器,而用户可以通过烧入 FPGA 配置文件来来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的,即用户今天可以把 FPGA 配置成一个微控制器 MCU,明天可以编辑配置文件把同一个 FPGA 配置成一个音频编解码器。ASIC 则是专用集成电路 (Application-Specific Integrated Circuit),一旦设计制造完成后电路就固定了,无法再改变。
用于深度学习加速器的 FPGA(Xilinx Kintex 7 Ultrascle, 上) 和 ASIC(Movidius Myriad 2, 下) 比较 FPGA 和 ASIC 就像比较乐高积木和模型。举例来说,如果你发现最近星球大战里面 Yoda 大师很火,想要做一个 Yoda 大师的玩具卖,你要怎么办呢? 有两种办法,一种是用乐高积木搭,还有一种是找工厂开模定制。用乐高积木搭的话,只要设计完玩具外形后去买一套乐高积木即可。而找工厂开模的话在设计完玩具外形外你还需要做很多事情,比如玩具的材质是否会散发气味,玩具在高温下是否会融化等等,所以用乐高积木来做玩具需要的前期工作比起找工厂开模制作来说要少得多,从设计完成到能够上市所需要的时间用乐高也要快很多。 FPGA 和 ASIC 也是一样,使用 FPGA 只要写完 Verilog 代码就可以用 FPGA 厂商提供的工具实现硬件加速器了,而要设计 ASIC 则还需要做很多验证和物理设计 (ESD,Package 等等),需要更多的时间。如果要针对特殊场合(如军事和工业等对于可靠性要求很高的应用),ASIC 则需要更多时间进行特别设计以满足需求,但是用 FPGA 的话可以直接买军工级的高稳定性 FPGA 完全不影响开发时间。但是,虽然设计时间比较短,但是乐高积木做出来的玩具比起工厂定制的玩具要粗糙(性能差)许多(下图),毕竟工厂开模是量身定制。 另外,如果出货量大的话,工厂大规模生产玩具的成本会比用乐高积木做便宜许多。FPGA 和 ASIC 也是如此,在同一时间点上用最好的工艺实现的 ASIC 的加速器的速度会比用同样工艺 FPGA 做的加速器速度快 5-10 倍,而且一旦量产后 ASIC 的成本会远远低于 FPGA 方案(便宜 10 到 100 倍)。
FPGA vs ASIC :积木 vs 手办 (责任编辑:本港台直播) |