天啊,这个围笑代表什么?麻省理工的AI比你更懂 | 论文+Demo 2017-08-06 12:45 来源:量子位 操作系统 /人类 原标题:天啊,这个围笑代表什么?麻省理工的AI比你更懂 | 论文+Demo 允中 编译整理 对方说完一句话,还配了一个“围笑”的表情。 问:这代表着“你真棒”,还是代表着“你死定了”?是代表着“礼貌的拒绝”,还是代表着“克制的友好”?你是否也曾不禁感叹:这tm到底什么意思…… 抱有同样疑问的,还有来自麻省理工的几位“高级知识分子”。 为了理解一句话背后的情感含义,这些研究人员研发出一套人工智能算法,用来分析:她说的到底是不是反讽?讲真,这套系统比大多数真人更厉害。 如何做到这一点? 深度学习。这些研究人员搭建了一套深度神经网络,然后使用来自Twitter(美国微博)上的大量对话数据进行训练。这个方法之所以可行,还得拜表情符号所赐:人们在微博上表达某种情感时,j2直播,常常会配上一些表情符号,例如emoji。 这些emoji表情,相当于给那句话,打了一个标签。于是从这个点突破,这套深度学习系统,即便不了解人类高级的反讽技巧,也能通过表情符号发现:事情不妙~ 这套基于深度学习的人工智能系统,叫做DeepMoji。 为了训练DeepMoji,研究人员收集了550亿条推文(微博),然后从中选出12亿条带有64种常见emoji表情符号的推文。 首先,他们训练系统来预测哪个表情符号会被用于特定的信息,例如幸福、悲伤、开心对应什么emoji。然后,这套系统被训练用于识别反讽。 这个模型将表情按照负面、正面、爱等不同的情绪进行分类,并且学习不同情绪之间的区别。下面这个图展示了DeepMoji对表情符号的分层聚类。 把语句中的一部分作为嘈杂标签(noisy label)来预训练预测任务不是一个新的想法,但可能之前没人用过一组64个嘈杂标签。需要注意的是,这个项目中嘈杂标签与情感分类的对应关系,并不是通过手动操作完成的,否则可能造成误解。 到底有多好? 研究人员给出的几个基准测试表明,DeepMoji在每种情况下,表现的都比现有最佳算法好得多。也即是说:使用emoji表情符号进行预训练的算法,识别某句话是否反讽的能力有了显著的提升。 除此以外,研究人员还通过Mechanical Turk进行了人类测试。测试结果表明,DeepMoji对一句话中的反讽情绪识别正确率达到82%,而人类平均成绩是76%。 麻省理工还给DeepMoji建了一个官网,有兴趣的同学可以前往围观,地址在:deepmoji.mit.edu。页面上有一个Demo。 当然这个模型也不是没有缺点,例如把“this is the shit”认成具有正面情绪,以及“love”这个词的适用范围之广,也让DeepMoji有些困扰。 如下图所示,对于给定的七句话,DeepMoji给出了前五个最有可能对应的emoji表情概率估计。不知道跟你想象的一样么? 研究这套系统,绝不是为了更好的谈恋爱。 这背后是一个严肃的研究,那就是对文本进行复杂情感分析。这个领域的大多数研究,都集中在判断一句话是正面还是负面情绪。但这显然远远不够,无论是实践还是理论都表明,人类的语言中蕴藏着更加复杂和细微的情感表达。 而且随着自然语言处理(NLP)技术的发展,Siri、Alexa等聊天机器人或者虚拟助理产品,也需要进一步提升对人类语言的理解能力。 模型架构 这一节,谈谈技术细节。研究人员面临的一个挑战,是如何设计模型和微调方法,才能够让表情符号预训练模型适用于各种新任务。 一开始,他们用了经典的2层长短时记忆网络(LSTM),但很快发现它有两个问题: 最后一个LSTM层所学到的特征对于迁移学习任务来说,可能过于复杂了。直接接触网络的上一层可能会更有利于进行迁移。 这个模型可能用于新领域,通过嵌入向量空间给出的特定词语的“理解”会需要更新。然而新领域的数据集可能非常小,因此,简单地用它来训练有2240万参数的整个模型将迅速导致过拟合。 要解决第一个问题,只需要向LSTM模型添加一个简单的注意力机制,它会将之前所有层作为输入,因此在架构中任何层都能轻松访问Softmax层,到先前的任何时间步长。 (责任编辑:本港台直播) |