迁移学习可以帮助我们处理这些新遇到的场景,并且迁移学习是机器学习的工业规模使用所必须的,它超越了任务的限制,而且域有丰富的标记数据。到目前为止,我们已经将模型有效应用于在数据可用性方面非常易得的任务和域。为了服务分布的长尾,我们必须学会将所获得的知识迁移到新的任务和域。 迁移学习的应用 从模拟中学习 迁移学习的一个让人兴奋的应用是从模拟中学习,未来我们将会看到更多这样的应用。对于许多依赖硬件进行交互的机器学习应用程序,在现实世界中收集数据和训练模型要么成本非常高而且耗时,要么非常费县。因此,用其他更低风险的方式收集数据是更好的选择。 模拟就是首选的一种工具,已经被用于在现实世界中实现许多先进的 ML 系统。从模拟中学习,然后将学习到的知识应用到现实世界,是迁移学习的一个实例,因为源和目标域之间的特征空间是相同的(两者通常都依赖于像素)。但是模拟和现实之间的边际概率分布(marginal probability distributions)是不同的,也就是说,模拟场景和源场景中的物体看起来是不同的,尽管这种差别随着模拟变得更逼真而减弱。同时,模拟和真实世界的条件概率分布(conditional probability distributions)可能也是不同的,因为模拟无法完全复制现实世界里的所有交互,例如,一个物理引擎(physics engine)无法完全模仿现实世界中物体的复杂交互。
图6:谷歌无人车(来源:Google Rearch Blog) 从模拟中学习有利于更容易地进行数据收集,因为可以很容易地绑定并分析对象,同时由于学习可以并行地在多个实例中进行,能够实现快速训练。因此,从模拟中学习是需要与现实世界交互的大型机器学习项目(如无人车)的前提条件。据谷歌无人车技术负责人 Zhaoyin Jia 的介绍,“如果你真的想做一辆无人驾驶汽车,模拟是至关重要的”。Udacity 开放了它的自动驾驶汽车纳米课程的模拟器,OpenAI 也开放了它的 Universe 平台,可以借助《侠盗猎车手5》或其他游戏训练自动驾驶汽车系统。
图7:Udacity 的自动驾驶汽车模拟器(来源:TechCrunch) 另一个需要从模拟中学习的领域是机器人:在真实的机器人上训练模型太慢,而且非常昂贵。从模拟学习以及将知识迁移到现实世界的机器人中减轻了这个问题。这样的研究在近年来又引发了许多人的兴趣。图8是一个分别在现实世界和模拟环境进行数据操作任务的例子。
图8:机器人和模拟图像(Rusu et al., 2016) 最后,模拟不可或缺的另一个方向是通用 AI。在现实世界中训练智能体直接实现通用 AI 的成本太高,而且不必要的复杂性阻碍了最初的学习。相反,例如基于图9中的 CommAI-env 等模拟环境,学习可能更容易成功。
图9:FAIR 的 CommAI-env(Mikolov et al., 2015) 适应新领域 从模拟学习是域适应(domain adaptation)中一个特殊例子,下面概述域适应的其他一些例子。 域适应是视觉任务的常见要求,因为通常易于得到的有标记数据和我们实际要用的数据是不同的,无论是识别例如图11中的自行车,或在野外识别其他对象。即使训练诗句和测试数据看起来相同,训练数据仍然可能包含有人类不易察觉的偏见,但是该模型会利用这些偏见得到过拟合的结果。
图10:不同的视觉域(Sun et al., 2016) (责任编辑:本港台直播) |