本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】专访 | 阿里搜索事业部研究员徐盈辉:剖析阿里背后的强化学习技术

时间:2017-03-15 00:41来源:香港现场开奖 作者:118开奖 点击:
2013 年,DeepMind 在 NIPS 大会上发表的一篇深度强化学习的文章,一举惊艳了学术界。2016 年 1 月,AlphaGo 在一场围棋大赛中击败李世乭吸引全世界的目光,其背后的强大武器正是深度强

  2013 年,DeepMind 在 NIPS 大会上发表的一篇深度强化学习的文章,一举惊艳了学术界。2016 年 1 月,AlphaGo 在一场围棋大赛中击败李世乭吸引全世界的目光,其背后的强大武器正是深度强化学习技术。同年年底,2016NIPS 最佳论文也颁给了解决深度强化学习泛化能力较弱问题的论文。

  随着深度学习的突破性进展,也促使强化学习的研究前景,重新获得了产业各界的关注。2016 年 8 月,在 ACM(国际计算机学会)会刊一篇名为《》的文章中提到,「DeepMind 的成功已经吸引了学术界与商业界对 DeepMind 的方法背后的人工智能领域的兴趣。」而相对于 DeepMind 和学术界看重强化学习的前沿研究,阿里巴巴这类公司则开始将焦点放在推动「强化学习」技术输出及商业应用。

  在双 11 推荐场景中,阿里巴巴使用了深度强化学习与自适应在线学习,通过持续机器学习和模型优化建立决策引擎,对海量用户行为以及百亿级商品特征进行实时分析,帮助每一个用户迅速发现宝贝,提高人和商品的配对效率。比如,利用强化学习将手机用户点击率提升了 10-20%。阿里巴巴的这一技术是如何成型的,强化学习在其中扮演了什么角色?阿里巴巴的强化学习又有哪些独到之处?带着这些问题,机器之心专访了阿里巴巴研究员徐盈辉。

报码:【j2开奖】专访 | 阿里搜索事业部研究员徐盈辉:剖析阿里背后的强化学习技术

  徐盈辉,阿里巴巴研究员,阿里巴巴搜索事业部搜索排序和基础算法的负责人,日本丰桥技术科学大学计算机科学博士。他规划和设计了搜索新一代的排序框架体系,建立了集 offline-nearline-online 三位一体的电商平台个性化搜索体系,推动和完成了搜索实时在线计算体系的规模化和平台化,在技术的先进性和业务的推动上都取得了突破性成果。

  机器之心:可否介绍一下,阿里在强化学习技术方向的团队、研究重点及技术特点?

  徐盈辉:强化学习作为一种有效的基于用户与系统交互过程建模和最大化过程累积收益的学习方法,已经在很多技术驱动的业务团队中获得了深入研究和探索,并且在一些具体的业务场景中得以大规模应用。在阿里巴巴搜索事业部,搜索和推荐算法团队的研究重点是,电商平台下的智能化流量投放系统,消费者权益智能化分发系统。其技术特点是运用多种机器学习技术,通过用户、query、商品以及对商家的理解,来提升搜索/推荐平台的流量投放效率。

  阿里巴巴 iDST(Institute of Data Science and Technologies)团队的研究重点是 multi-media 技术平台,针对平台端的多媒体内容、语音、图像、视频等,运用深度学习、强化学习等技术来提供语音识别、智能客服、图片标注分类、实拍搜索、视频分析等服务。

  阿里云大数据孵化团队,研究重点是数据中心的智能化运维和调度算法,针对传统行业以及政府基于大数据技术,降低生产成本和提升服务效率。技术特点是依托阿里云的 ET 智能算法平台,快速实现智能化解决方案。

  菜鸟网络的算法技术团队则是围绕物流链路的各个节点,供应链、仓配、末端网络等,通过机器学习和运筹优化等技术手段来降低商家物流成本和提升消费者物流服务体验。

  机器之心:强化学习技术主要应用在哪些业务方向?在阿里零售网络包括物流、用户行为分析等方面扮演着怎样的角色?

  徐盈辉:这个问题我回答的不一定全面,就我个人理解和判断,强化学习技术在阿里平台上能够施展手脚的业务方向还是有不少的。互联网环境下,尤其是在移动互联网中,人机交互的便捷,碎片化使用的普遍性,页面切换的串行化,用户轨迹的可跟踪性等都要求我们的系统能够对变换莫测的用户行为以及瞬息万变的外部环境进行完整地建模。平台作为信息的载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整提供信息(商品、客服机器人的回答、路径选择等)的策略,从而最大化过程累积收益(消费者在平台上的使用体验)。而基于监督学习时代的信息提供手段,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。但是真正的智能化搜索和推荐,比如客服机器人,作为投放引擎的 agent,需要有决策能力。这个决策不是基于单一节点的直接收益来确定,而是当作一个人机交互的过程,把消费者与平台的互动看成是一个马尔可夫决策过程,运用强化学习框架,建立一个消费者与系统互动的回路系统,而系统的决策是建立在最大化过程收益上,来达到一个系统与用户的动态平衡。

  

报码:【j2开奖】专访 | 阿里搜索事业部研究员徐盈辉:剖析阿里背后的强化学习技术

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容