为了解决第二个问题,研究人员提出了一个“束缚-解冻”微调程序,反复“解冻”网络的某一部分,atv直播,对其进行训练。这个过程从训练任意新层开始,然后从第一层到最后一层逐层微调,再训练整个模型,如下图所示: 这种调整的计算量并不像听起来那么巨大,因为每一层只需要微调一点点。 随后附上的论文中展示了这种模型架构确实更适合迁移学习,还说明了使用这样丰富的emoji数据集,比经典的“正面/负面”表情符号区分更好,即使分析的目标只是要区分正负面情绪,也是如此。 为了对模型进行基准测试,研究人员在5个领域的3个NLP任务中找到8个基准数据集。 在所有基准数据集上,DeepMoji模型的表现都优于现有最高水平,其中所用的“束缚-解冻”方法始终保持了迁移学习的最高性能。 研究中遇到的一个问题,是缺少适当的情绪分析基准数据集,类别最多的情感数据集只有7个情感分类。为解决这个问题,研究人员正在尝试建立一个新的情感基准数据集,希望有助于推动情绪分析研究。 模型应用 DeepMoji的预处理代码,以及易于使用的预训练模型使用了Keras框架。稍后会全部在GitHub上开源共享。有兴趣的朋友可以记住这个地址: https://github.com/bfelbo/deepmoji 之所以说易于使用,是因为基于这个模型,只需要几行代码,就可以对一个测试数据集进行预处理,并且对模型进行精细调整。 from deepmoji import SentenceTokenizer, finetune_chainthaw, define_deepmojiimport deepmoji as dmvocab_path = '..'pretrained_path = '..'maxlen = 100nb_classes = 2# Load your dataset into two Python arrays, 'texts' and 'labels'...# Splits the dataset into train/val/test sets. Then tokenizes each text into separate words and convert them to our vocabulary.st = SentenceTokenizer(vocab_path, maxlen)split_texts, split_labels = st.split_train_val_test(texts, labels)# Defines the DeepMoji model and loads the pretrained weightsmodel = define_deepmoji(nb_classes, maxlen, pretrained_path)# Finetunes the model using our chain-thaw approach and evaluates itmodel, acc = finetune_chainthaw(model, split_texts, split_labels)print("Accuracy: {}".format(acc) 如果你想扩展词汇表让模型可以涉猎更广,可以进一步调整dropout的比率或其他方法。稍后放出的代码里会有详细的说明。 这里还有DeepMoji与目前最先进方法的比较,这个方法结合了LSTM模型+梯度增强树(GBT)分类器。DeepMoji获得了82.1%的准确率,而对照组最好的成绩是75.6%。有趣的是,“束缚-解冻”方法有助于提高准确率。 相关论文 如果你想进一步研究DeepMoji,可以查看他们的论文。论文的题目是:《Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm》。 作者:Bjarke Felbo, Alan Mislove, Anders Søgaard, Iyad Rahwan, Sune Lehmann 论文摘要: NLP任务常常受限于手动注释数据的稀缺。因此,在社交媒体情绪分析和相关任务中,二元化表情符号和特定主题标签已经成为研究人员使用的远程监督(distant supervision)形式。我们的研究表明,通过将远程监督扩展到更多样化的嘈杂标签,模型可以学习更丰富的表示。 通过对12.46亿条包含64个常见emoji的twitter进行分析,预测它们所对应的emoji,我们使用单一预训练模型,在情绪、情感和讽刺检测的8个基准数据集上取得了最高水准的表现。分析证实,我们所用的情感标签的多样性,与以往的远程监督方法相比,带来了性能的改进。 获取论文,请在量子位微信公众号对话界面,回复“表情大师”四个字,即可得到下载地址。 (责任编辑:本港台直播) |