本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【组图】一点资讯田超WOT:透析点击反馈平台

时间:2016-11-28 22:57来源:118论坛 作者:j2开奖直播 点击:
日前,由51CTO传媒精心打造的WOT2016大数据峰会在北京盛大开幕。本次大会议题涵盖实时计算、机器学习、等九大数据领域前沿技术专场,百度大数据平台架构师侯珏、HBase核心贡献者

报码:【j2开奖】一点资讯田超WOT:透析点击反馈平台

  日前,由51CTO传媒精心打造的WOT2016大数据峰会在北京盛大开幕。本次大会议题涵盖实时计算、机器学习、等九大数据领域前沿技术专场,百度大数据平台架构师侯珏、HBase核心贡献者Ted Yu、一点资讯大数据平台研发总监田超等应邀出席并发表演讲。

报码:【j2开奖】一点资讯田超WOT:透析点击反馈平台

一点资讯大数据平台研发总监田超发表演讲

  在大会现场,一点资讯大数据总监田超深度透析用户点击反馈背后的系统设计,并以一点资讯实时反馈平台为例,分享了支撑一点资讯亿级别用户实时计算系统的设计理念和心得。

  他表示,实时的数据处理能力对于一个现代互联网公司来说是必要的组成部分,一点资讯作为一家融合了“搜索”和“推荐”的兴趣引擎平台,根据不同场景、频道下的点击反馈形成数据矩阵,对数据进行深层次挖掘,并通过大规模实时点击反馈系统和大规模机器学习进行智能推荐,从而为用户提供兼具共性与个性的移动价值阅读,实现了用户体验的提升。

  以下是演讲节选:

  大家好,很高兴今天与大家分享一点资讯关于大数据技术的一些心得。作为近两年来在移动资讯领域发展最快的公司之一,目前,一点资讯的日活达4800万。此外,我想在这里特别强调的是,一点资讯主动订阅用户数已达4700万。作为一家融合了搜索和推荐的技术驱动资讯平台,与单纯被动根据用户历史记录进行推荐不同,我们更注重自由订阅来给予用户主动表达的出口,通过全网化的智能客户端,不仅为大家带来有趣、有料的新闻,也更提供有用、有品的资讯。

报码:【j2开奖】一点资讯田超WOT:透析点击反馈平台

  实时点击反馈平台打造最佳推荐服务

报码:【j2开奖】一点资讯田超WOT:透析点击反馈平台

  上图是今天我们主要讲的,点击反馈相关推荐的部分。主要包括两个,左手边叫Neo的系统是今天的主题,也就是点击反馈计算平台。

  因为这次论坛的主题是实时计算,所以我们也回顾一下整个推荐系统里面实时计算所涉及的三个方面的应用场景:第一部分是实时画像中的后验指标,包括了用户画像,内容画像和频道画像等。第二部分,应用场景是我们实时的数据分析,让我们在做不同实验时,了解到不同人群、文章点击率的变化。第三部就是在线的机器学习,后面我会详细介绍。

  值得注意的是,虽然推荐服务系统为我们带来很多便利,但同时也面临不少问题和挑战,下面我将从一点资讯的平台为例,为大家分别阐述五个方面的主要问题以及解决方式。

  问题1:如何统一各种近似的实时Pipeline

  第一个问题就是近似的pipeline大家怎么样去统一?做实时计算时,大家常常发现你的Storm、spark跑着各种各样相近但又不同的作业,这些作业中80%运算是相同的。

  在一点资讯内部,我们设计了一套叫Neo的点击反馈平台系统,统一了主要的实时点击反馈计算逻辑。Neo系统的核心数据结构是一个Multi-Dimensional Matrix,用以描述用户在各个维度和粒度的兴趣属性和基础属性两部分,可以在不同维度和数据粒度上进行各种聚合运算。其次,我们围绕着核心数据结构构造了整个运行时的framwork,可以支持用户自定义自己的算子。

  问题2:实时计算和离线计算的统一

  第二个问题说实时计算和离线计算怎么样统一?

  实时计算与离线计算的统计是流式计算领域里的研究热点之一,atv,对于我们的生产工作来说也有着比较重要的实际意义,市面上有一些开源和技术和论文包括Spark、SummingBird、Google DataFlow等都对如何实现有自己的解决方案。一点资讯采用的是Lambda architecture,对于核心计算逻辑有一套统一的数据结构抽象和计算算子抽象。我们本质上处理的是事件流在不同矩阵上以不同粒度聚合的问题,这里尤其是对于矩阵的Delta和Base之间的计算,我们给出了一套比较完整的抽象。这一套核心代可以同时跑在Storm/JStorm, Spark、Mapeduce上。

  问题3:数据变化如何追踪与Debug

  我们的平台除了考虑到了上面所述的数据结构和计算模型外,还考虑到了时间的因素。时间是一个非常重要的维度,对于我们的计算引擎也是一个挑战。总结来说,包括这几个问题:不同类型的Feature需要不同的淘汰策略,需要能够计算各种时间周期上的feature、需要能够知道数据历史变化的状态、数据分析需要追踪指标变化曲线。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容