本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

友盟+李丹枫:超大量级数据场景数据团队如何运

时间:2017-06-15 22:11来源:本港台直播 作者:118开奖 点击:
*本文为清华-青岛数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容,转载具体要求见文末。 “数据对于数据科学家来说是非常重要的,甚至比算法还重

*本文为清华-青岛数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容,转载具体要求见文末。

“数据对于数据科学家来说是非常重要的,甚至比算法还重要。要知道,再好的模型都是靠数据养的。因此在数据应用层面,我认为中国比美国更有优势。”曾供职于雅虎,微软,j2直播,FICO等多家领先科技公司,【友盟+】CDO丹枫感慨到。

大数据发展的下半场,意识到数据重大价值的不止丹枫直播,而在数据产业中,争夺数据话语权的无声战争也正愈演愈烈。2016年1月,友盟、CNZZ和缔元信三家各自拥有本行业大批量数据的公司合并,组成了新的公司【友盟+】,而新生的【友盟+】数据体量遂之倍增到中国乃至全球瞩目。

骤然增多的数据量一方面让【友盟+】在众多的数据服务提供商中,获得了天然的数据体量优势,另一方面,数据的合并和数据团队重新定位整合也给管理层带来了前所未有的挑战。就大公司内部的数据治理与整合、数据产品和数据团队的重构等话题,我们与李丹枫进行了深度对话。

每天处理约280亿事件高数据体量下,如何定义和实现高效计算?

合并后的【友盟+】数据体量到底有多大呢?

李丹枫称,合并后,【友盟+】覆盖的用户行为数据打通了PC、手机、传感器、无线路由器等多种设备。用数据具象展现:

- 覆盖125万个APP;

- 每天监测14亿移动设备;

- 每天监测680万个网站;

- 每天处理的事件数约280亿。

面对如此庞大的数据量,李丹枫坦言:第三方数据量级太大、覆盖面太广。面对全面打通的数据,【友盟+】的数据团队首先要解决的问题是:如何定义和实现用户行为数据的高效计算?以【友盟+】提供的风控业务为例,用户行为数据的量级大但数据深度浅,对于数据团队来说,在这种数据上做挖掘很有挑战性。同时,这项服务会承担大量的外部查询量。

首先摆在数据团队面前的是数据的全量更新或按需更新的选择。这个选择题经常出现在一个数据模型的训练和测试阶段。建模时不仅要考虑到基于不同层面的数据特征清晰地定义目标,还要考虑当模型成型后,所有的指标需要被有效地计算。如果数据科学家的决策是数据指标需要每天全量更新,每天将有几十亿个ID的数据回溯到数据训练的平台上,带来的是巨大的计算量和计算资源的占用。同时需要数据工程师协助数据科学家搭建有效的数据生产环境,保护计算的稳定性。因此,数据全量更新或按需更新的选择直接决定了存储和计算资源的消耗量,也就是成本。为此李丹枫博士为我们介绍了“代健康度”的概念和评价标准。

很多时候机器是在“傻算”给定代“健康”度规则,高效挖掘数据价值

“我们要让数据团队有这样的意识,一定要用最高效的方法来实现计算。尤其在数据体量巨大的场景下,差一点就会差很多”,李丹枫说到“比如说100亿个ID,如果每个计算能提高1%,能节省的资源是很大的。”对资源的消耗与公司的生存直接相关,作为CDO,李丹枫必须清晰地界定“高效计算”的评价标准,督促并激励数团队能够有效地使用数据。

【友盟+】的数据团队分为数据科学家和数据工程师,有不同的check point来保证“高效”。友盟对于代码有一套评价体系——代码“健康”度。里面囊括了经常出现的代码错误、模型的稳定性(对变量依赖程度的评估)、模型的可持续性(不同版本更新的用户体验是否顺畅)和对占用资源的评估。如果一个数据科学团队的代码连续三次被监测为“不健康”,他们在组织中的权重会相应降低。对于数据科学家来说,对业务的理解直接关系到在特征的实现,需要在建模的阶段定义好数据和好方法。“不要过分追求模型的极致表现。比如一个模型的表现30%都依赖于1~2个变量,在实验室里的表现可能非常好。在实际生产过程中,一旦这1~2个变量出了问题,可能整个模型的结果都废了,这显然是公司无法接受的。所以,数据科学家要时刻提醒自己:你怎么定义你的目标?”李丹枫说。对于数据工程团队来说,内部技术委员会对定期评价团队正在运用的技术是否有效。

高效运转数据团队的核心数据团队的重构 & 数据人才的再定义

【友盟+】能够运作起如此庞大的数据量,除了专注于对数据的高效使用,还有一个重要因素是合并时的数据整合,以及和阿里巴巴内部数据团队的合作。公司高层在合并之初发动了“五大战役”,从业务角度出发整合数据。经过半年时间确定了三大产品线,其数据团队也在此基础上重构成了三大业务模块+上层数据价值实现模块的结构。“我们希望用户在用我们产品的时候就像搭积木一样,把有需求的模块拼接起来使用。数据在其中是横向打通的。”李丹枫说。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容