本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】专访 | 阿里搜索事业部研究员徐盈辉:剖析阿里背后的强化学习技术(4)

时间:2017-03-15 00:41来源:香港现场开奖 作者:118开奖 点击:
徐盈辉 :实战型强化学习系统必然要求拥有一个能够快速收集的 feedback,在线学习能力的实时计算引擎,从而能有效评估策略改进效果。阿里从 2013 年就

  徐盈辉:实战型强化学习系统必然要求拥有一个能够快速收集的 feedback,在线学习能力的实时计算引擎,从而能有效评估策略改进效果。阿里从 2013 年就开始着力研发基于 streaming 计算引擎的在线学习平台,发展至今天,已经初步形成了规模化的基于 Flink 计算引擎的流式智能化算法引擎,能够在秒级别完成数据采集、分析和训练,在线部署预测。这个端到端的大规模在线深度强化学习任务在 2016 年双 11 上,共处理日志量近 200 亿,处理消息量超三千亿,流式计算平台处理峰值超千万 QPS(笔者注:每秒查询率),实现 24 小时不间断无延迟运转,在线策略改进频次高达几百万次。

  机器之心:能否谈谈目前阿里训练好的强化学习系统应用到新任务的泛化能力?

  徐盈辉:搜索事业部的基础算法团队依托于 Flink 社区,自主研发了 Blink 流式计算引擎,并在此之上开发了称之为「Porsche」的大规模分布式在线学习算法框架,并基于此算法框架,自主研发了算法组件库 ai4b。目前主流的深度学习模块,DNN、CNN、RNN(笔者注:分别为深度神经网络、卷积神经网络、循环神经网络)以及强化学习模块的基本功能组件都开发完毕并投入应用,所开发的 DDPG 和 TRPO 算法适用于大规模连续状态空间,连续 action 空间下的强化学习任务,而 A3C 和 DQN 算法适用于大规模连续状态空间和离散策略空间下的强化学习任务。

  

报码:【j2开奖】专访 | 阿里搜索事业部研究员徐盈辉:剖析阿里背后的强化学习技术

  机器之心:强化学习需要强大的深度学习网络的支持,目前阿里的深度网络达到了多少层?

  徐盈辉:首先我想指出用深度网络去支撑强化学习只是一种技术手段而已,其核心目的是为了加强对于强化学习本体的输入状态和策略空间的更有效表达,而层数与参数空间和样本规模是有关系的。对于大规模连续状态,连续 action(笔者注:行动)空间下的 Q-learning,j2直播,通常是通过 embedding(笔者注:嵌入)方式进行映射,而低维空间下线性组合方式会导致优化过程陷入 Local Minima,因此会考虑通过高阶非线性映射来实现状态表达和策略表达的交叉映射效果,从而有效解决局部最优解的问题。

  机器之心:最近 GAN(生成对抗网络)与强化学习结合起来做序列形成是一个热点,您怎么看这个算法的发展前景?阿里在 GAN 这个算法方面有相关研究与进展吗?

  徐盈辉:GAN 最吸引我的是它的系统性学习思想,未来的机器学习领域应该是需要更多的系统化思考的专业人士,我把它称之为 Systematic Machine Learning(笔者注:系统性机器学习),为什么这么说呢,机器学习的三大研究领域,非监督学习、监督学习、强化学习,就像 Yann LeCun 在 2016 年 NIPS 大会上提出的「蛋糕」比喻,把我们需要的预测信息类比成蛋糕,认为强化学习是上层的樱桃,每个 sample(笔者注:样本)只包含很少的信息,而监督学习则是蛋糕外层的糖衣,每个 sample 要包含更多的信息,无监督学习则是剩下来的蛋糕主体,每个 sample 包含的信息非常多(数百万 bit)。同理,GAN 的精妙之处是能很好把这三个大领域的技术体系完美的结合起来。非监督学习长期受困于无法形成基于有效目标的评估体系和迭代优化方案,而监督学习受困于标注样本的匮乏和 bias(笔者注:偏置),而 GAN 的思想可以将强化学习作为将非监督学习和监督学习之间桥接的技术手段,非监督学习得到的 Representation Model(笔者注:表征模型)运用到监督学习网络中去评估并将结果通过 Policy Gradient(笔者注:策略梯度算法)方式回传非监督学习的迭代优化过程中;不妨用 Actor-Critic 体系来阐述 GAN 的训练思想,Actor-model 在某种意义上,我们看成是一个从 state(笔者注:状态)生成 action(笔者注:行动)的 Generative Model(笔者注:生成模型),而将 Critic-model 看成是基于状态-策略输入下的 Q 值回归网络的判别式过程,整个数据理解和建模过程就通过这样的系统新运作方式来使得生成式模型更好地去发现「未知」世界中的类 True Positive 样本,而判别式模型也能更好地从逐步完成一个个困难样本的判别来提升模型鲁棒性。阿里巴巴搜索事业部基础算法团队也在积极尝试利用 GAN 思想来解决我们的业务问题,并在传统的 Learning to Rank 算法和推荐算法,以及 OCR 识别领域重取得了不错的实验性结果。

  机器之心:基于深度学习和强化学习的搜索和推荐算法,在实际的推荐和客服场景中还有哪些创新型应用?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容