现在一款流行的APP,从正式立项到上线运行,可能只有短短数周的时间,而且由于需求和市场反馈存在较大的波动,所以互联网公司对于服务器的弹性部署有越来越高的要求。据彭震介绍,M5在设计中为了业务满足高弹性的需求,在服务器中加入了很多弹性的设计,可以满足一对多的标准化场景。比如在2U标准的服务器,前面就有三种面板可供选择,可以分别做成大盘、小盘等,2U服务器可以根据需求不同选择4块GPU或者8块GPU,通过模块化设计,用户可以像搭积木一样自由组合。 当设备种类繁多、规模跃升之后,数据中心的可管理性就变得异常重要。浪潮M5新一代服务器配置多维合一的自动管理方案,支持OpenBMC和Redfish,可帮助用户构建一个涵盖服务器、存储、网络、制冷、安监等所有设备和设施的双向互动管理体系,并辅助管理的部署、配置等日常工作,不断降低数据中心管理员工作的复杂度。 为了解决标准林立的问题,M5服务器同时涵盖了ODCC、OCP白金会员以及Open19三大开放标准,新一代M5服务器包括了天蝎整机柜、4U多子星、OCP整机柜、OCS整机柜、Open19整机柜等5大方案平台以及17款扩展节点,这也让用户在选择时不会受到开放标准的制约。 用极致设计,来满足效率要求;用弹性设计,来满足业务多样化和灵活性要求;用智能设计,来满足成本控制要求;用开放设计,来保持兼容性和生态活力。浪潮M5“极致、弹性、开放、智能”这四大特性,也将是智慧计算设备未来的流行趋势。 智慧计算,是基于应用场景创新的必然结果 “现在来找浪潮来一同探索深度学习应用落地的客户太多了,我们预计今年基于深度学习的服务器产品增幅可能会达到去年的两到三倍。”彭震在接受采访时表示,中国服务器市场基于人工智能、深度学习的产品线已经处于即将爆发式增长的阶段。 当面对《老尚看科技》现场提问,像Alpha Go这类深度学习应用,初期做深度学习算法训练时对GPU的性能要求非常高,但当算法不断成熟后,后期应用时对GPU性能要求会有所下降,那么如果购置了大批量GPU 加速服务器来深度学习,是否会在后期造成一定的性能冗余?彭震坦率的表示,这种现象在某种程度上是存在的,在初期做深度学习训练的时候,实际上对GPU的性能要求是非常高的,当深度学习的算法成熟后,对GPU的性能要求会降低一些,甚至用一些FPGA卡就能满足,浪潮M5具备高弹性的模块化设计,可以根据用户在深度学习不同阶段的需求,来动态调整资源配置、保护用户的投资。 彭震指出,如果从另一个维度来看,深度学习需要不断优化,比如人脸识别,在大规模部署之后,当有海量数据汇入,其实还需要后台的GPU具有强大的性能,来不断进行深度学习的算法优化,训练优化取决于数据量的多少,深度学习之所以越来越聪明,需要后端不断的通过训练。比如人脸识别,百度人脸识别的正确率,经过几年的不断改进才达到了97%,而且这还是在正常照明情况下、正脸识别的结果,如果在低照明环境或者是侧脸状态,目前的识别率还有继续提升的空间,实际上后台训练对于GPU的性能需求也有在不断增加的情况。所以,用于深度学习的GPU服务器采购并不是说完成了算法训练就万事大吉了,它好像软件产业一样,在软件开发完,还需要不断运维和优化。 彭震表示,智慧计算,并不是浪潮凭空想象出来的理念,它是为了满足应用创新自然生长的产物。就比如在数据中心智能管理上,如果采用深度学习来不断优化管理方案,差不多可以把PUE降低20%。从实际情况来说,数据中心主要的热源就是服务器,服务器产生了热量,为了把这个热量散发掉,数据中心可能还要再耗费同等的能耗成本,这些热量把它弄到室外去、把冷风送进来。 浪潮M5服务器中设计了很多传感器,可以监测CPU功耗、出风口温度、进风口温度,用智能调度的方式来动态调整服务器功率、空调功率,当功耗上来的时候,就把供电调上来,如果现在服务器都进入休眠了,供电能力就可以降下来,比如发现进风的风口温度太高了,导致整个机器过热了,就可以通知精密空调多送点冷风,如果冷风送多了,服务器发现负载下来了,不需要这么多热量产生了,然后就可以通过控制系统少送些风,这样就形成了一套互相的联动和控制。 (责任编辑:本港台直播) |