有鉴于此,为了利用图计算的优势同时又解决上述的问题,我们提出了分布式机器学习系统——图学习TuX2 (Tu Xue Xi)。TuX2相比于传统的图计算引擎,在数据模型、调度模型、编程模型三个方面都做了关键的扩展,全新的图模型MEGA更是使得分布式图计算引擎在保持原有的高效性的同时拥有更多的灵活性,支持Mini-Batch和灵活一致性模型等关键的机器学习概念,并且更适合编写复杂的机器学习算法。
性能方面, 在高达640亿条边的大规模数据上的实验充分说明,TuX2相比当前最好的图计算引擎PowerGraph和PowerLyra都取得了超过一个数量级上的性能提升,这一成绩背后离不开我们的异质性(heterogeneity)图节点优化和新编程模型MEGA。而对比现有的两大机器学习系统,Petuum和ParameterServer,TuX2在大幅度减少代码量的同时带来了至少48%的性能提升,这主要是因为我们的图编程模型MEGA的高层次抽象以及图计算系统基于图结构优化。 要知道,大规模分布式机器学习模型的训练成为很多产品线的重要部分并且耗时良久,我们系统显著的性能提升(Efficiency)有效的节省了计算资源,而其扩展性(scalability)使得支持更大规模的数据成为可能。 我们的愿景是希望TuX2能够真正连接图计算和分布式机器学习两个研究领域,让更多的机器学习算法和优化能够很简单的在图计算引擎上实现,从而利用好众多的图结构优化技术来进行系统层面的优化,将两个领域的研究工作更好的结合在一起,为人工智能的未来服务。 作者简介
肖文聪,本科毕业于北京航空航天大学计算机学院,2014年加入北京航空航天大学与微软亚洲研究院的联合培养博士生项目,导师是北航的李未院士和微软亚洲研究院副院长周礼栋博士。研究方向是大规模分布式图计算和机器学习系统。 相关论文: 【1】Lapton:The Design, Implementation, and Deployment of a System to Transparently Compress Hundreds of Petabytes of Image Files for a File-Storage Service https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/horn 【2】mOS: A Reusable Networking Stack for Flow Monitoring Middleboxes https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/jamshed 【3】VFP: A Virtual Switch Platform for Host SDN in the Public Cloud https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/firestone 【4】Let It Flow: Resilient Asymmetric Load Balancing with Flowlet Switching https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/vanini 【5】Flowtune: Flowlet Control for Datacenter Networks https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/perry 【6】Curator: Self-Managing Storage for Enterprise Clusters https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/cano 【7】AdaptSize: Orchestrating the Hot Object Memory Cache in a Content Delivery Network https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/berger 【8】CherryPick: Adaptively Unearthing the Best Cloud Configurations for Big Data Analytics https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/alipourfard 【9】VideoStorm:Live Video Analytics at Scale with Approximation and Delay-Tolerance https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/zhang 【10】Clipper: A Low-Latency Online Prediction Serving System https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/crankshaw 【11】Gaia: Geo-Distributed Machine Learning Approaching LAN Speeds https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/hsieh 【12】Tux?2;: Distributed Graph Computation for Machine Learning https://www.usenix.org/conference/nsdi17/technical-sessions/presentation/xiao 【13】GraM: scaling graph computation to the trillions ?id=2806849&CFID=926649994&CFTOKEN=39893429 你也许还想看: (责任编辑:本港台直播) |