机器之心:不久之前 Facebook 提出了新的语言模型方法 Gated Convolutional Network,相比于 LSTM 取得了一定进展。对此研究有何看法?这个研究是否有很大的意义? 牛建伟:Gated CNN 跟 9 月份的 WaveNet 其实有点类似,因为它相当于是把显示的那种循环结构改了一下。 LSTM 的提出从想法上还是比较简单:因为这是一个时序的问题,需要历史指导来做下一步的预测。但现在我们来看,它存在一些问题:优化算法没有那么稳定。 LSTM 之前是 Simple RNN,为什么 LSTM 比 RNN 好? 从理论上来说,两者的表达的能力应该是一样的。通过调整结构(引入门),来适应现有的一些学习算法,让它的性能变得比较好。但同时也说明现有的优化算法是有些问题的,包括它的收敛性、稳定性上。 现在的一个趋势是利用 CNN 结构的组合来替代 RNN 模型,优化的时候就可以用一个 SGD(随机梯度下降)或者类似 SGD 的优化算法,它的稳定性相对来说会高一些,不会存在很明显的梯度爆炸问题。
另外,还因为卷积网络用 CNN 这种结构直观上比较合理一些。比如说三个单词,我先把它们变成一个连续域表示,就像它们论文中的一张图就是把 word graphic 转到连续域场(如上图)。然后把连续域的特征通过卷积,就看前三个,提出一个特征然后一层层加上去,之后再做一个预测。预测的词出来之后,再放到输入上面,就这样一层一层过。其实它也是类似循环的结构,但这种结构依赖的历史相对就比较明确了。 LSTM 其实是一个隐含的。你可以说它学到了历史,因为它有一个保存信息的 cell,但到底它学了多长的历史是未知的。 至于这个研究,模型的话我觉得可能意义没那么大。我个人认为,如果能在优化算法上有更好的改进,普通的模型结构可能也能取得这样的效果。但现在优化算法上突破性的改进,好像还不多。 黄畅:我补充一点。关于 LSTM,不管你是单向的、双向的、摞一起的、不摞一起的,其实都有一个问题:信息传导的约束很强。换句话说,不管是做前向预测还是后向 BP(反向传播),一个信息从左边到右边,或者从开始到结束,都要经过很长的路径。而且在整个过程中,会有很多非线性的变化,尤其是 LSTM 这种典型的、很容易进入自我限制状态的模型。经过很多次这样的事情,就导致整个优化变得异常困难。这个结构天生就使得优化变得非常困难。 这是 LSTM 的弊病,它的结构设计有很大限制性。你可以类比一些其他结构,比如 ResNet,它通过建立 free-way 的方式,人为地架了很多 short-pass(短路径),使得本来在网络上距离很远的两个单元之间建立一些高速的快速通道。直观的理解就是可以让它们之间的信息沟通更加顺畅,减轻我前面说的那个问题。 更进一步,你会发现在语音识别中有人用完整的 CNN 替代 LSTM,包括讯飞、微软、百度。刚开始的时候 CNN 用得很浅,只是作为基本的局部表达,后来发现可以用 CNN 不断堆积,而且堆的很有技巧。在计算量不显著增加的情况下,这样就可以用 CNN 覆盖很大的语境。 就是说优化算法本身也许没有很好的进步,但是通过网络结构的设计可以规避目前主要基于 SGD 的优化算法难以解决的 LSTM 问题,直接构造一个更适合目前优化算法去优化的网络结构。所以本质上很难说哪个结构更好,你只能说这个结构更适合现在主流的这种优化方法。 其实论文出来时我稍微看了一点,它本质上好像和 attention model 很像。attention model 的概念是不管语境是怎么传过来的,总是有选择的看所有东西,做决策(比如生成一个词)的时候有选择的去做。这时候会产生一个 attention mask,这可以理解成一个 gate,封住一些不想看的东西,保留想看的。 这个在图像和 NLP 里面已经得到很好的验证。NLP、语音、图像其实都是相通的,你会发现很多思想、结构、设计理念会越来越相似。这也给了我们信心,让我们可以实现语音图像识别一体化交互,用一套统一的专用架构去做解决各种各样的问题。 ©本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |