由于人工智能系统可以从内部模拟中提取更多知识,因此相对于传统搜索方法,例如蒙特卡洛树搜索,可以借助较少的想象步数去更好地完成任务。 当我们添加能协助构建计划的额外“管理”组件之后,人工智能系统可以更高效地学会用更少的步数解决问题。 在太空飞船任务中,人工智能系统可以分辨环境中引力的强弱,而引力的不同需要配合不同的想象步数。当人工智能系统面对多种环境模型,每种环境模型的质量和成本优势各不相同时,它可以学会做出有意义的权衡。最后,如果每步行动会导致想象的计算成本上升,那么人工智能系统就会提前想象多个连锁行为产生的后果,随后持续依赖这样的计划,而不会再次展开想象。 能够处理不完美模型,并学会如何使规划策略适应当前状态,这是重要的研究课题。 我们的两篇新论文,以及Hamrick等人此前的工作考虑了这些问题。基于模型的增强学习和规划是热门研究领域,而我们仍需要进一步分析和思考,从而带来可以规模化的解决方案,帮助人工智能系统利用想象力对未来进行推理和计划。 OMT 昨天,DeepMind创始人兼CEO哈萨比斯,还在访谈中提到想象力以及神经科学和人工智能的融合借鉴。他说:。而且也发了论文~ (责任编辑:本港台直播) |