若有函数 f(u) = ? ln u,其中标量 u>0,那么其共轭函数为 f* (ν) = ?1 ? ln(?ν),其中标量 v<0。因此根据上式定义,我们的函数和共轭函数有以下关系: 其中,sup 由 max 替代,因为上确界是可以用最大化达到的。随后我们可以将上面的函数代入最开始的损失函数中,而根据拉格朗日对偶性,直播,原始问题的对偶问题是极大极小问题,因此求解原始问题就等价于求解以下极小极大问题(min-max problem):
其中即 V 定义为所有对偶变量的集合。 Lt(θ, V ) 为第 t 个分量函数:
极小极大问题方程的最优解 (θ*,V*) 即称之为函数 L(θ,V ) 的鞍点。一旦求得最优点 (θ*,开奖,V*),我们就能保留原始变量θ*作为模型学到的参数。 随机原始-对偶梯度方法(Stochastic primal-dual gradient method /SPDG) 在上式极小极大问题等价优化式中,我们先关于θ极小化 L(θ, V ) 和关于 V 极大化 L(θ, V ) 以求得最优解 (θ*,V*)。这样求得的参数θ即原始问题的最优化解。我们更进一步注意到原始问题的等价式极小极大问题现在是分量函数 Lt(θ, V ), t = 1, . . . , T 从 1 到 T 的累和。
因此,关于θ的极小化和关于 V 的的极大化可以由随机梯度下降解出,即 L(θ, V ) 关于原始变量θ执行随机梯度下降、L(θ, V ) 关于对偶变量 V 执行随机梯度下降。这样重复迭代的方式,即随机原始-对偶梯度(SPDG)方法。为了计算随机梯度,我们先将 L(θ, V ) 的全批量梯度表示为:
为了计算随机梯度,我们将每个样本的平均值由各自的随机抽样分量(或其小批量均值)替代,如此迭代重复下去(其中 tm 为集合 {1, . . . , T} 中的均匀随机变量)。在上述算法一中,我们使用小批量梯度概述了 SPDG 方法,其中梯度可以在 TensorFlow 实现中自动计算。此外,对偶变量的负约束(negative constraint)由于在极大极小问题中的内在 log-barrier而能被自动执行。因此,我们不需要独立的方法来实现约束条件。 随后,邓力老师分析了对偶问题成本函数的损失表面,它表明对偶问题的损失表面具有更优良的性能,执行随机梯度下降也能得到一个很好的最优解。
原始域具有崎岖的损失表面(tough loss surface)和高障碍(high barriers)
原始-对偶域拥有平滑得多的损失表面 最后,邓力老师总结了本场演讲的精要信息点:
最后邓力老师表明,无监督学习比监督学习更有趣,但是也更困难。我们可以使用更多的一些数据来进行学习,比如说像我刚才所说的 SPDG 方法,该方法不需要进行标记,但它可以直接进行学习来听声音的识别或者说做一些翻译。这样的一个线性的方式,我们也需要很多的发明来使无监督学习更加地有效。 邓力说:「其实我们人类还是很有希望的,因为在未来有越来越多的技术以后,人类就可以有更多的价值。」他认为虽然监督学习很有希望,但未来的趋势还是无监督学习。 ↓↓↓ (责任编辑:本港台直播) |