2017-08-18 12:28 来源:机器之心 操作系统 原标题:教程 | 拟合目标函数后验分布的调参利器:贝叶斯优化 选自Medium等 参与:蒋思源 如何优化机器学习的超参数一直是一个难题,我们在模型训练中经常需要花费大量的精力来调节超参数而获得更好的性能。因此,贝叶斯优化利用先验知识逼近未知目标函数的后验分布从而调节超参数就变得十分重要了。本文简单介绍了贝叶斯优化的基本思想和概念,更详细的推导可查看文末提供的论文。 超参数超参数是指模型在训练过程中并不能直接从数据学到的参数。比如说随机梯度下降算法中的学习速率,出于计算复杂度和算法效率等,我们并不能从数据中直接学习一个比较不错的学习速度。但学习速率却又是十分重要的,较大的学习速率不易令模型收敛到较合适的较小值解,而较小的学习速率却又常常令模型的训练速度大大降低。对于像学习速率这样的超参数,我们通常需要在训练模型之前设定。因此,对于超参数众多的复杂模型,微调超参数就变得十分痛苦。 超参数的选择同样对深度神经网络十分重要,它能大大提高模型的性能和精度。寻找优良的超参数通常需要解决这两个问题: 如何高效地搜索可能的超参数空间,在实践中至少会有一些超参数相互影响。 如何管理调参的一系列大型试验。 简单的调参法在介绍如何使用贝叶斯优化进行超参数调整前,我们先要了解调参的朴素方法。 执行超参数调整的传统方法是一种称之为网格搜索(Grid search)的技术。网格搜索本质上是一种手动指定一组超参数的穷举搜索法。假定我们的模型有两个超参数 learning_rate 和 num_layes,表格搜索要求我们创建一个包含这两个超参数的搜索表,然后再利用表格中的每一对(learning_rate,num_layes)超参数训练模型,并在交叉验证集或单独的验证集中评估模型的性能。网格搜索最后会将获得最佳性能的参数组作为最优超参数。 网格搜索穷举地搜索整个超参数空间,它在高维空间上并不起作用,因为它太容易遇到维度灾难了。而对于随机搜索来说,进行稀疏的简单随机抽样并不会遇到该问题,因此随机搜索方法广泛地应用于实践中。但是随机搜索并不能利用先验知识来选择下一组超参数,这一缺点在训练成本较高的模型中尤为突出。因此,贝叶斯优化能利用先验知识高效地调节超参数。 贝叶斯优化的思想 贝叶斯优化是一种近似逼近的方法。如果说我们不知道某个函数具体是什么,那么可能就会使用一些已知的先验知识逼近或猜测该函数是什么。这就正是后验概率的核心思想。本文的假设有一系列观察样本,并且数据是一条接一条地投入模型进行训练(在线学习)。这样训练后的模型将显著地服从某个函数,而该未知函数也将完全取决于它所学到的数据。因此,我们的任务就是找到一组能最大化学习效果的超参数。 具体来说在 y=mx+c 中,m 和 c 是参数,y 和 x 分别为标注和特征,机器学习的任务就是寻找合适的 m 和 c 构建优秀的模型。 贝叶斯优化可以帮助我们在众多模型中选取性能最优的模型。虽然我们可以使用交叉验证方法寻找更好的超参数,但是我们不知道需要多少样本才能从一些列候选模型中选出性能最好的模型。这就是为什么贝叶斯方法能通过减少计算任务而加速寻找最优参数的进程。同时贝叶斯优化还不依赖于人为猜测所需的样本量为多少,这种最优化技术是基于随机性和概率分布而得出的。 简单来说,当我们馈送第一个样本到模型中的时候,模型会根据该样本点构建一个直线。馈送第二个样本后,模型将结合这两个点并从前面的线出发绘制一条修正线。再到第三个样本时,模型绘制的就是一条非线性曲线。当样本数据增加时,j2直播,模型所结合的曲线就变得更多。这就像统计学里面的抽样定理,即我们从样本参数出发估计总体参数,且希望构建出的估计量为总体参数的相合、无偏估计。 下面我们绘制了另外一张非线性目标函数曲线图。我们发现对于给定的目标函数,在馈送了所有的观察样本后,它将搜寻到最大值。即寻找令目标函数最大的参数(arg max)。 (责任编辑:本港台直播) |