我们的目标并不是使用尽可能多的数据点完全推断未知的目标函数,而是希望能求得最大化目标函数值的参数。所以我们需要将注意力从确定的曲线上移开。当目标函数组合能提升曲线形成分布时,其就可以称为采集函数(Acquisition funtion),这就是贝叶斯优化背后的思想。 因此,我们的目标首要就是确定令目标函数取最大值的参数,其次再选择下一个可能的最大值,该最大值可能就是在函数曲线上。 上图是许多随机集成曲线,它们都由三个黑色的观察样本所绘制而出。我们可以看到有许多波动曲线,它表示给定一个采样点,下一个采样点可能位于函数曲线的范围。从下方的蓝色区域可以看出,分布的方差是由函数曲线的均值得出。 因为我们叠加未知函数曲线的观察值而进行估计,所以这是一种无噪声的优化方法。但是当我们需要考虑噪声优化方法时,我们未知的函数将会因为噪声误差值而轻微地偏离观察样本点。 贝叶斯优化的目标 我们一般希望能选取获得最优性能的超参数,因此超参数选择就可以看作为一种最优化问题,即最优化超参数值为自变量的性能函数 f(x)。我们可以形式化为以下表达式: 许多优化设定都假设目标函数 f(x) 是已知的数学形式,同时还假定它为容易评估的凸函数。但是对于调参来说,目标函数是未知的,且它为计算昂贵的非凸函数。所以常用的优化方法很难起到作用,我们需要专门的贝叶斯优化方法来解决这一类问题。 贝叶斯优化方法在目标函数未知且计算复杂度高的情况下极其强大,该算法的基本思想是基于数据使用贝叶斯定理估计目标函数的后验分布,然后再根据分布选择下一个采样的超参数组合。 贝叶斯优化充分利用了前一个采样点的信息,其优化的工作方式是通过对目标函数形状的学习,并找到使结果向全局最大提升的参数。贝叶斯优化根据先验分布,假设采集函数而学习到目标函数的形状。在每一次使用新的采样点来测试目标函数时,它使用该信息来更新目标函数的先验分布。然后,算法测试由后验分布给出的最值可能点。 高斯过程 为了使用贝叶斯优化,我们需要一种高效的方式来对目标函数的分布建模。这比直接对真实数字建模要简单地多,因为我们只需要用一个置信的分布对 f(x) 建模就能求得最优解。如果 x 包含连续型超参数,那么就会有无穷多个 x 来对 f(x) 建模,即对目标函数构建一个分布。对于这个问题,高斯过程(Gaussian Process)实际上生成了多维高斯分布,这种高维正态分布足够灵活以对任何目标函数进行建模。 逼近目标函数的高斯过程。 在上图中,假定我们的目标函数(虚线)未知,该目标函数是模型性能和超参数之间的实际关系。但我们的目标仅仅是搜索令性能达到最优的超参数组合。 开发和探索之间的权衡 一旦我们对目标函数建了模,那么我们就能抽取合适的样本尝试计算,这就涉及到了开发(exploitation)和探索(exploration)之间的权衡,即模型到底是在当前最优解进一步开发,还是尝试探索新的可能解。 对于贝叶斯优化,一旦它找到了局部最优解,那么它就会在这个区域不断采样,所以贝叶斯优化很容易陷入局部最优解。为了减轻这个问题,贝叶斯优化算法会在探测和开发 (exploration and exploitation) 中找到一个平衡点。 探测(exploration)就是在还未取样的区域获取采样点。开发(exploitation)就是根据后验分布,在最可能出现全局最优解的区域进行采样。我们下一个选取点(x)应该有比较大的均值(开发)和比较高的方差(探索)。 选择下一个可能的最大点,并在方差和均值间权衡。因为我们在高方差分布中搜索下一点,这意味着探测新的点 x。高均值意味着我们在较大偏移/偏差下选择下一点(x)。 在给定前 t 个观察样本,我们可以利用高斯过程计算出观察值的可能分布,即: (责任编辑:本港台直播) |