议题简介:图计算是今年来的一个研究热点,在机器学习,数据挖掘中有重要的作用。图计算的性能也是限制图计算应用的重要原因,如何提高图计算的性能是系统领域一个重要的研究热点。本讲座将对图计算方法的性能研究进行介绍,以几个具体的例子帮助听众理解相关的优化方法。 听众收益:体系结构的介绍,图计算的热点分析,单机图计算与多机图计算优化方法的异同。
梁堰波 Hortonworks 研发工程师 演讲议题:基于Spark的面向十亿级别特征的大规模机器学习 讲师简介:Yanbo is an Apache Spark Committer working at Hortonworks. His main interests center around implementing effective machine learning algorithms and building machine learning applications based on scalable distributed system. He is an active Apache Spark contributor, delivered the implementation of some major MLlib algorithms. Prior to Hortonworks, he was a software engineer at Yahoo!, Meituan and France Telecom working on machine learning and distributed system. 议题简介:Apache Spark MLlib provides scalable implementation of popular machine learning algorithms, which lets users train models from big dataset and iterate fast. The existing implementations assume that the number of parameters is small enough to fit in the memory of a single machine. However, many applications require solving problems with billions of parameters on a huge amount of data such as Ads CTR prediction and deep neural network. This requirement far exceeds the capacity of exisiting MLlib algorithms many of which use L-BFGS as the underlying solver. In order to fill this gap, we developed Vector-free L-BFGS for MLlib. It can solve optimization problems with billions of parameters in the Spark SQL framework where the training data are often generated. The algorithm scales very well and enables a variety of MLlib algorithms to handle a massive number of parameters over large datasets. In this talk, we will illustrate the power of Vector-free L-BFGS via logistic regression with real-world dataset and requirement. We will also discuss how this approach could be applied to other ML algorithms.
陶征霖 Apache HAWQ Committer, PMC 演讲议题:云时代大数据管理引擎HAWQ++ 讲师简介:陶征霖,浙江大学本硕毕业,先后就职于Oracle,EMC,Pivotal和北京偶数科技有限公司。一直从事数据库相关领域的开发研究工作。隶属于HAWQ核心团队成员, 参与了HAWQ 1.X ~ 2.0的核心研发工作,后任Apache HAWQ Committer和PMC成员。现就职于创业型公司北京偶数科技有限公司,负责设计研发高性能HAWQ++大数据管理引擎。 议题简介:HAWQ++是由Apache HAWQ创始团队打造的HAWQ增强企业版本,采用了MPP和Hadoop结合的创新MPP++技术架构,高可扩展,遵循ANSI-SQL标准,提供PB级数据交互式查询能力。并且提供对主要BI工具的描述性分析支持。兼容Oracle,GPDB和PostgreSQL,原生支持Lava和Kubernetes平台,可以帮助企业无缝迁移到最新的云计算平台。演讲涵盖以下三大块内容:1.Apache HAWQ的总体架构和主要模块简介。2.HAWQ++相比于Apache HAWQ的新特性。3.HAWQ++的安装部署和基本用法。 听众收益:本次演讲适合所有希望了解Apache HAWQ或HAWQ++的用户。帮助用户大体了解HAWQ的基本架构和主要组件,熟悉HAWQ的基本用法,包括sql/plsql,odbc/jdbc以及madlib的使用。共同探讨HAWQ的适用场景,助力用户数字化转型。
熊永平 北京邮电大学计算机系副教授 演讲议题:基于Spark的统一数据管理与数据探索平台 讲师简介:北京邮电大学网络技术国家重点实验室副教授,中科院计算所博士,先后在诺基亚研究中心、中国电子信息产业研究院等单位,从事网络安全、移动物联网、数据科学和数据挖掘等领域的研究开发工作,主持和参与了国家自然科学基金、科技部重大专项、973等多项国家科研项目。在IEEE Transactions on Mobile Computing、ACM MobiCom等国内外著名期刊会议上发表论文30多篇,单篇论文他引次数超过210次。近年来在大规模数据处理和机器学习领域进行了深入研发,其研究成果转化到保险、金融、能源等多个领域的大数据应用系统中,取得了良好的效果。 (责任编辑:本港台直播) |