2、ACNN(Asymmetric CNN): 传统的CNN采用的是 ( k d ) 大小的filter,ACNN则把filter的过程分成 ( 1 d ) 和 ( k 1 ) 的两个过程,相当于是把 ( k d ) 的filter做因式分解。 这一层的输入是一个 ( L d ) 的矩阵,对于n个尺度为( 1 d ) 和( ki 1 )的卷积层的输出是一个 [ (L - ki + 1) n ]的矩阵,开奖,如下图所示,本文采用了3种不同的卷积核,所以输出是3种不同的[ (L - ki + 1) n ]的矩阵(图中一个彩色的小方块表示 (1 * n)的向量) 3、连接层: 为了给BLSTM构造输入,连接层将3种不同卷积层的输出,以Ct^i表示第1种卷积层为LSTM第t个time step贡献的输入,则LSTM网络的第t步输入Ct = [Ct^1, Ct^2, Ct^3],其中t属于{1,2,…,L-K+1}, K = max{ki} 4、BLSTM: LSTM能够很好的解决long time delay 和long range context的问题,但其处理是单向的,而BLSTM能够解决given point的双边的依赖关系,因此,本文选择了BLSTM网络层来学习ACNN输入的特征的dependencies 5、Softmax层: 为了应用于分类问题,本文在最后使用全连接层和softmax函数来实现分类。
资源 文章中使用的数据集 1、SST-1
2、SST-2
3、Movie Review(MR) https://www.cs.cornell.edu/people/pabo/movie-review-data/ 4、SUBJ https://www.cs.cornell.edu/people/pabo/movie-review-data/ 5、TREC
6、YELP13 https://www.yelp.com/dataset_challenge 相关工作 1、Yoon Kim于2014年在Convolutional neural networks for sentence classification一文中提出将词向量和CNN结合,用于句子分类的模型。在该文中,Kim将不同长度的filter的组合在一起,且提出了static或者可以fine-tuning的word embedding模型 2、Zhou et al.则于2015年在A C-LSTM neural network for text classification一文中提出将CNN和LSTM叠加的模型,且使用固定的word embedding 3、Szegedy et al.于2015年在Rethinking the Inception Architecture for Computer Vision中提出了ACNN模型,这减少了参数的个数且提高了模型的表征 简评 这篇文章主要贡献就是提出了一个AC-BSLTM的模型用于文本分类,亮点就在于:ACNN可以在减少参数的个数的同时通过增加更多的非线性性来提高表达能力,而BLSTM能够捕捉输入的两端的信息。两者的结合就提高了分类的精度。但事实上,这两个网络模型都是现有的,本文的工作感觉只是两个网络的连接,在本质上没有太大的改进,且在分类精度上的提高也比较有限。 关于PaperWeekly PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是NLP的各个方向。如果你也经常读paper,也喜欢分享知识,也喜欢和大家一起讨论和学习的话,请速速来加入我们吧。 微信公众号:PaperWeekly 微博账号:PaperWeekly() 微信交流群:微信+ zhangjun168305(请备注:加群交流或参与写paper note) (责任编辑:本港台直播) |