英特尔还提供了基于 Intel Xeon 处理器和 Intel Xeon Phi 处理器的 Caffe,Theano,Tensorflow 等深度学习主流框架的优化整合包(Caffe Optimized Integration for Intel Xeon 和 Intel Xeon Phi)。英特尔全路径架构(Intel OPA,Intel Omni-Path Architecture)和 Xeon Phi Knights Landing 处理器支持超高速互联计算节点集群。新的智能方法,可以将深度神经网络训练扩展到大量处理节点上,从而在目前最优的基础上显著减少了训练时间。例如,使OverFeat-FAST 深度神经网络拓扑结构,已经有研究机构在目前 64 个节点的 Intel Xeon E5-2697 处理器上将训练时间降低到了 8 小时,使用Knights Landing 平台会将时间降低到 3-4 个小时。 基于 Xeon Phi 众核处理器的训练服务器可以克服片上内存对计算规模和网络深度的限制,并且作为自启动处理器,可以直接访问主存,显著提高计算效率。当搭建大规模的训练集群时,128个节点的 Xeon Phi 可以达到 50倍以上的速度提升。
浙大数理学院最早选择了 ConvNet 在 GPU 平台上进行模型训练,因为大量 B 超影像的数据对内存要求较 高,他们在 ConvNet 上做了深入优化和压缩使对内存的占用从 12G 降低到 6G,使得算法得以运行完成, 但是对精确度和计算效率都造成了一定的影响。转入 Xeon Phi 平台后,内存的限制被移除,除了处理器带有高达 16G 的片上内存,单个节点可直接访问的主存空间也高达 384G。 研究团队采用了如下配置的 Xeon Phi 的训练服务器:
在单个节点 Xeon Phi 平台使用 IntelCaffe 以及 MKL2017 的最新版本,经过调优后,速度提高到2 倍,在 ResNet101 和 ResNet50 的测试中,甚至达到对比组 M40 的性能的 1.2 倍。 英特尔人工智能评分系统加速方案 浙江大学数理学院和德尚韵兴公司的联合开发团队初期为了将在GPGPU 上训练好的模型部署于工作站或者云端,基本上重新编写了全部实现代码,并且进行了深度优化,单幅图像的处理时间一直在30 秒左右。这在开始阶段可以接受,但是 B 超本身产生的是连续图像,这使得连续处理时间几十倍的增加,并且增加了其他病种后时间会变得更长,产品化和商业化的时间都受到影响。 联合开发团队装了数学核心库的最新优化版本 MKL2017 以 后,打开并行化选项,在不改变代码的情况下就已经获得 2 倍以上的速度提升,atv,经过深度优化,速度提高到 10 倍左右。这些优化由于得到基于统一的 IA 架构 的支持,无论是在工作站方案,还是云版方案,都同样得到了效能的显著提升。 与此同时,云服务商将 MKL 部署于其计算环境,即可对其客户的应用进行加速。 “只要是计算,英特尔就是最好的”。英特尔医疗与生命科学集团亚太总经理李亚东如是说。 与生态系统合作伙伴一起发挥 DE 超声机器人的应用价值 英特尔积极联合生态环境产业合作伙伴,推动人工智能研发成果产品化,探索有效的业务模式,为行业提供从方案架构到业务流程的参考案例。 在浙大医学院附属第一医院超声科的部署,得到了几位主任的高度评价与支持。超声机器人作为初步的筛查工具,可以避免医生花费大量时间查看比较简单的图像,集中精力于复杂案例,也可以有效的降低漏诊、误诊等问题。蒋主任介绍说,超声科的医生工作负担非常重,每天可能要书写数百份超声报告,很多虽然基本但是很耗费时间,经过长时间的工作,医生的准确率可能会受到影响。引入超声机器人作为助手,医生只需要复核,经过标注的可疑区域也非常直观,提高了效率,作为培养年轻医师的手段也很受欢迎。 位于杭州的另外两所社区卫生院基于阿里云部署的超声机器人,也深受当地医生患者好评。之前由于基层的医生经验有限,很难及时给出报告,现在只需要数秒,超声机器人就可以自动生成一份详细的参考报告模板。既可以全自动地探测结节区域、识别结节的良恶性,也可以通过人工勾画出结节区域,然后系统自动识别其良恶性。 (责任编辑:本港台直播) |