另一方面,第二个 我。然而,对于为什么 NLP 不需要担忧深度学习,我确实有自己的两个理由:(1) 对于我们领域内最聪明、在机器学习方面最具影响力的人来说 NLP 才是需要聚焦的问题领域,这很美妙; (2) 我们的领域是语言技术的领域(domain)科学;它不是关于机器学习的最佳方法——中心问题仍然是领域问题。这个领域问题不会消失。Joseph Reisinger 在其博客上写道:「我经常在初创公司做通用机器学习,坦诚讲,这是一个相当荒谬的想法。机器学习并不是毫无差别的累活,它没有像 EC2 那样商品化,并比编码更接近于设计。」 从这个角度看,语言学领域的人、NLP 领域的人,才是真正的设计者。近期的 ACL 会议已经过于关注数量、关注突破顶级成果了。可称之为 Kaggle 竞赛。该领域的更多努力应该面向问题、方法以及架构。最近,我同合作者一直专注的一件事是开发普遍依存关系(Universal Dependencies)。目标是开发出通用的句法依存表征、POS 和特征标记集。这只是一个例子,该领域还有其他的设计努力,比如抽象含义表征(Abstract Meaning Representation)的思路。 语言的深度学习 深度学习到底在哪些方面帮助了自然语言处理?从使用分布式词表征,即使用真实值向量表征词与概念来看,到目前为止,NLP 并没有从深度学习(使用更抽象的层级表征提升泛化能力)获得较大的提高。所有词之间的相似性如具有密集和多维度表征,那么将在但不仅限于 NLP 中十分有用。事实上,分布式表征的重要性唤起了早期神经网络的「分布式并行处理」浪潮,而那些方法更具有更多的认知科学导向性焦点(Rumelhart 和 McClelland 1986)。这种方法不仅能更好地解释类人的泛化,同时从工程的角度来说,使用小维度和密集型词向量允许我们对大规模语境建模,从而大大提高语言模型。从这个角度来看,提高传统的词 n-gram 模型顺序会造成指数级的稀疏性并似乎会在概念性上破产。 智能需要能从知道小的部分理解整个大的事物。 我确实相信深度模型会很有用的。在深度表征中发生的共享在理论上可以给出指数级的表征优势,并在实际上提升学习系统的性能。构建深度学习系统的一般方法是优秀而强大的:在端到端学习框架中,研究人员定义了模型的架构和最好的损失函数(loss function),然后对模型的参数和表征进行自组织学习以最小化该损失。我们接下来会了解最近所研究的深度学习系统:神经机器翻译(neural machine translation/Sutskever, Vinyals, and Le 2014; Luong et al 2015)。 最后,我一直主张更多地关注模型的语义合成性,特别是语言和一般人工智能方面上。智能需要能从知道小的部分理解整个大的事物。尤其是语言,理解小说和复杂句子的关键在于能否从较小的部分(单词和短语)构建整体的意义。 最近,许多论文展示了如何从由「深度学习」方法的分布式词表征来提升系统性能的方法,如 word2vec (Mikolov et al. 2013) 或 GloVe (Pennington, Socher, and Manning 2014)。然而,这并不是构建深度学习模型,我也希望未来有更多的人关注强语言学的问题,即我们能否在深度学习系统上构建语义合成功能。 连接计算语言学和深度学习的科学问题 我不鼓励人们为了使用词向量来增长一点性能而努力研究,我建议我们可以回到一些有趣的语言学和认知性问题上,这些问题将促进非分类表征和神经网络方法的发展。 自然语言中非分类现象的一个例子是动名词 V-ing 形式(如 driving)的 POS。这种形式在动词形式和名词性动名词之间的经典描述是具有歧义的。事实上,真实情况是更复杂的,因为 V-ing 形式能出现在 Chomsky (1970) 的四种核心类别中:
更有趣的是,有证据表明其不仅有歧义,同时还混合了名词-动词的状态。例如,作为名词的经典语言学文本和限定词一同出现,而作为动词的经典语言学文本采用的是直接对象。然而,众所周知动名词名词化可以同时做到这两件事情: 1. The not observing this rule is that which the world has blamed in our satorist. (Dryden, Essay Dramatick Poesy, 1684, page 310) (责任编辑:本港台直播) |