二、处理器体系结构研究有时会显得很神奇,同样的算法、同样的晶体管,不同的组织方式性能就会让算法运行起来有几十到几百倍的差别。有时又会显得很无奈,使劲优化也只能提升1%的性能。但不管如何,处理器终究还是“大国重器”或“贵司重器”,这是知识密集型和资本密集型的活,不是一般公司可以玩得起,搞得敢做体系结构研究的人也越来越少。如何建起人才培养生态、吸引更多学生加入体系结构研究,需要业界更多支持。 三、计算机体系结构旗舰年会ISCA每年只录50篇左右论文,但对信息技术的推动作用不容忽视,成为各大公司展示硬实力的舞台——微软在2014年ISCA上发表其FPGA在数据中心应用的论文,引领全世界一波FPGA热潮;Google 则是在今年ISCA上公布张量处理器TPU细节;而10年前则有D.E. Shaw在2007年ISCA上发表了其黑科技——分子动力学专用机Anton;而国内计算所也是在2016年ISCA首次发布了面向神经网络处理器的寒武纪指令集。 寒武纪创始人兼CEO陈天石在接受新智元专访时称: 一、谷歌 TPU 肯定还会继续做下去 在TPU的ISCA2017论文中,Google引用了DianNao全系列学术论文外加ACM旗舰杂志Communications of the ACM刊登的DianNao系列综述,同时还专门用英文注释这几个名字的含义(Big computer, general computer, vision computer),对我们前期工作显示了相当的尊重。Google还引用了寒武纪团队发表的Cambricon指令集论文(国际上首个智能处理器指令集),从侧面反映Google同行一直在跟踪我们最新的工作。 Google TPU未来肯定还会继续做下去。我们的早期学术合作者Olivier Temam教授在几年前加入了Google,许多业界的朋友猜测未来DianNao系列的学术思想会与TPU发生某种程度的融合。我们对此乐见其成,也非常期待与国际同行在这一领域同场竞技。 二、脉动阵列架构使 TPU 处理卷积比较高效,但 TPU 性能做到极致还有距离 脉动阵列架构处理卷积会比较高效,但在其他一些workload上效率可能又不大好。因此从效率角度说,TPU的性能离做到极致还有距离。TPU的优秀性能与其采用了8位运算器是分不开的。这样做可以使单位面积的芯片能摆放更多的运算器,对内存带宽的需求也大大降低,这使得TPU获得了很好的绝对性能。当然,降低运算器的位宽并不是提升性能、降低面积功耗的唯一办法。稀疏化神经网络是另外一条道路。在稀疏神经网络中,由于模型每层的稀疏度可以在[0,1]连续区间变化,这使得整个模型的识别精度和模型的运算/访存量之间的tradeoff是连续可控的。相比之下,直接把模型降到8位,可能会带来不可控的识别精度丢失。当前深度学习发展日新月异,我们认为应对两种思路兼容并包。 三、应用层面的深刻变化催生了当前这一轮芯片的百花齐放 Google 这样的公司,从最开始使用 CPU 这样的通用芯片,过渡到 GPU 与 FPGA,但是FPGA无法提供想象的速度,又再过渡到专属的 ASIC来面对应用的需求。而Facebook 走的是全GPU路线,微软在开发 FPGA。每个厂商肯定都不会把鸡蛋放在一个篮子里。例如Google虽然自己做了TPU,但肯定还是会大量采购CPU和GPU。目前这一轮芯片的百花齐放其实根源是应用层面发生了深刻的变化。未来待应用层面相对稳定以后,芯片的定位和市场会进入一个稳定期。 Google应该主要是将TPU应用于人工智能云服务,而不会直接出售TPU。对于芯片领域的创业公司来说,不用太担心Google会直接抢饭碗,但是需要密切注意TPU给智能领域带来的新生态。是与之融合,还是与之抗衡,是每个芯片公司需要考虑的问题。 关于泛AI领域,中国的成就有目共睹。这里我更想说一说处理器这块(也呼吁社会各界给予更多关注):目前我国的处理器架构领域学术和工程水平不断提高,在许多方向上(不光是智能处理器这块)已经和国际同行难分伯仲。例如通用CPU这块,我们国内有龙芯、申威、飞腾,有兆芯和海光,也有华为海思这样的民企,已经是百花齐放。我坚信国内同行的共同努力最终一定会带动我国整个处理器行业的跨越式发展,在未来进一步解决了工艺瓶颈后,一定可以做到和美国并驾齐驱。 英伟达黄仁勋亲自撰文将最新GPU与TPU对比,表示不服反被吐槽 (责任编辑:本港台直播) |