新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,与人工智能业界领袖携手改变世界。 【新智元导读】本文作者 Mikio Braun 是 Zalando 的推荐和搜索系统的交付带头人,Mikio拥有机器学习的博士学位。本文概述了一个能把数据科学引入生产系统的架构的典型模式。想了解更多的大规模复杂数据分析的内容,可以查看Mikio Braun的培训视频《大规模机器学习》。 在过去的几年间,数据科学这个概念已经被非常多的行业所接受。数据科学(源自于一个科学研究课题)最早是来自于一些试图去理解人类的智能并创造人工智能的科学家,但现在它已经被证明是完全可以带来真正的商业价值。 例如,我所在的公司:Zalando(欧洲最大的时尚品零售店)。在这里,数据科学和其他工具一起被用来提供数据驱动的推荐。推荐本身作为后端服务,被提供给很多地方,包括产品页面、分类目录页面、通讯电邮以及重新定位目标客户等。
图1:图片来自Mikio Braun的演讲页 数据驱动产生推荐 实际上,有非常多的方法可以由数据驱动产生推荐。例如,在所谓的“协同过滤”里,所有用户的行为(比如浏览商品、对想买商品列表的操作、以及购买行为)都可以被收集起来作为推荐的基础,然后分析发现哪些商品有相似的用户行为模式。这种方法的优美之处在于计算机根本不用知道这些商品是什么。而它的缺点则是商品必须要有足够多的用户行为信息数据才能保证这个方法起作用。 另外一类产生推荐的方法是只看商品的属性。例如,推荐具有相同品牌的或者相同颜色的商品。当然,对这些方法还有非常多的扩展或者组合。
图2:图片由Antonio Freno友情提供并授权使用。引用自发表在KDD 2015会议的《One-Pass Ranking Models for Low-Latency Product Recommendations》论文 更简单一些的方法就是只通过计数来做推荐。但这种方法在实践里会有非常多的复杂的变形。例如,对个性化推荐,我们曾使用过“学习排序”的方法,即对商品集做个性化的排序。上图里所显示的就是这个方法需要最小化的损失函数。 不过,这里画出这个图的主要目的,还是来展示数据科学可能会引入的复杂度。这个函数自身使用了成对的加权指标,并带有正则化条件。这个函数的数学展现是很简化的,当然也就很抽象。这个方法不仅对于电商的推荐场景有用,还对当物品有足够特征的时候的所有类型的排序问题也有用。 将数据科学方法引入工业界 为了把类似上图的非常复杂的数学算法引入到生产系统中,我们需要做什么?数据科学和软件工程之间的界面应该是什么样?什么样的组织架构和队伍结构才最适合使用这些数据科学的方法?这些都是非常相关和合理的问题。因为这些问题的答案将会决定对于一个数据科学家或者是整个数据科学团队的投资是否能最终得到回报。 在下文里,我会根据我作为一个机器学习的研究人员以及在Zalando带领一个数据科学家和工程师团队的经验,来对这些问题做一些探讨。 理解数据科学(系统)与生产系统的关系 让我首先从了解数据科学系统与后端生产系统的关系开始,看看如果将两者进行集成。
图3:图片来自Mikio Braun的演讲页 (责任编辑:本港台直播) |