【j2开奖】深度 | 剖析DeepMind神经网络记忆研究：模拟动物大脑实现连续学习(2)_本港台直播_J2开奖直播

在图中，θ?A 代表在 A 任务中表现最好的 θ 的配置，还存在多种参数配置可以接近这个表现，灰色表示这一配置的集合；在这里使用椭圆来表示是因为有些参数的调整权重比其他参数更大。如果神经网络随后被设置为学习任务 B 而对记住任务 A 没有任何兴趣（即遵循任务 B 的误差梯度），则该网络将在蓝色箭头的方向上移动其参数。B 的最优解也具有类似的误差椭圆体，上面由白色椭圆表示。

然而，我们还想记住任务 A。如果我们只是简单使参数固化，就会按绿色箭头发展，则处理任务 A 和 B 的性能都将变得糟糕。最好的办法是根据参数对任务的重要程度来选择其固化的程度；如果这样的话，神经网络参数的变化方向将遵循红色箭头，它将试图找到同时能够很好执行任务 A 和 B 的配置。作者称这种算法「弹性权重巩固（EWC/Elastic Weight Consolidation）」。这个名称来自于突触巩固（synaptic consolidation），结合「弹性的」锚定参数（对先前解决方案的约束限制参数是二次的，因此是弹性的）。

数学解释

在这里存在两个问题。第一，为什么锚定函数是二次的？第二，如何判定哪个参数是「重要的」？

在回答这两个问题之前，我们先要明白从概率的角度来理解神经网络的训练意味着什么。假设我们有一些数据 D，atv，我们希望找到最具可能性的参数，它被表示为 p(θ|D)。我们可以是用贝叶斯规则来计算这个条件概率。

如果我们应用对数变换，则方程可以被重写为：

假设数据 D 由两个独立的（independent）部分构成，用于任务 A 的数据 DA 和用于任务 B 的数据 DB。这个逻辑适用于多于两个任务，但在这里不用详述。使用独立性（independence）的定义，我们可以重写这个方程：

看看（3）右边的中间三个项。它们看起来很熟悉吗？它们应该。这三个项是方程（2）的右边，但是 D 被 DA 代替了。简单来说，这三个项等价于给定任务 A 数据的网络参数的条件概率的对数。这样，我们得到了下面这个方程：

让我们先解释一下方程（4）。左侧仍然告诉我们如何计算整个数据集的 p（θ| D），但是当求解任务 A 时学习的所有信息都包含在条件概率 p（θ| DA）中。这个条件概率可以告诉我们哪些参数在解决任务 A 中很重要。

下一步是不明确的：「真实的后验概率是难以处理的，因此，根据 Mackay (19) 对拉普拉斯近似的研究，我们将该后验近似为一个高斯分布，其带有由参数θ?A 给定的均值和一个由 Fisher 信息矩阵 F 的对角线给出的对角精度。」

让我们详细解释一下。首先，为什么真正的后验概率难以处理？论文并没有解释，答案是：贝叶斯规则告诉我们

p(θ|DA) 取决于 p(DA)=∫p(DA|θ′)p(θ′)dθ′，其中θ′是参数空间中的参数的可能配置。通常，该积分没有封闭形式的解，留下数值近似以作为替代。数值近似的时间复杂性相对于参数的数量呈指数级增长，因此对于具有数亿或更多参数的深度神经网络，数值近似是不实际的。

然后，Mackay 关于拉普拉斯近似的工作是什么，跟这里的研究有什么关系？我们使用θ*A 作为平均值，而非数值近似后验分布，将其建模为多变量正态分布。方差呢？我们将把每个变量的方差指定为方差的倒数的精度。为了计算精度，我们将使用 Fisher 信息矩阵 F。Fisher 信息是「一种测量可观察随机变量 X 携带的关于 X 所依赖的概率的未知参数θ的信息的量的方法。」在我们的例子中，我们感兴趣的是测量来自 DA 的每个数据所携带的关于θ的信息的量。Fisher 信息矩阵比数值近似计算更可行，这使得它成为一个有用的工具。

(责任编辑：本港台直播)