文中提到在电子商务中商品搜索在如今线上购物网站中起重要作用,即用户通过输入一个短句子来搜索其想要购买的商品。为此文中提出了一种新的向量空间模型(latent vector space model),同时学习词向量和商品向量。其中词向量和商品向量分别处在不同的向量空间中,用户每次输入的句子首先会被映射到商品向量空间中,然后在商品向量空间中通过计算相似度来搜索对应的商品。其每条训练数据格式为(商品-文档),这里的文档包括商品的描述以及用户对该商品的评价。训练方法如下图所示。
其中w是句子中的一个词,x是一个商品,w先通过一个词嵌入矩阵Wv来得到其在词向量空间的词向量,之后通过一个非线性操作映射到商品向量空间中。最后在商品向量空间中计算词w和商品x的相似度。句子的向量是通过对其中所有词向量平均而得到的。该文通过(商品-文档)的相似度比(商品-其他随机文档)的相似度更相似的原理来构建目标函数。其实验结果如下图所示:
大会论文中也不乏一些有趣的文章,比如以下两篇文章: “Using Prerequisites to Extract Concept Maps from Textbooks”文中提出一种新的框架来从学习文档中抽取一种特殊的知识图谱——概念图(concept map)。不同于已有的知识图谱,该文的概念图中的节点代表的是科学概念或者数学概念而非人名、地名、组织名,同时节点之间的关系为“先决条件关系”(prerequisite relationship)而非“is-a”或“part-of”关系。先决条件关系代表着在学习一个高级概念时,有必要先把其基本概念搞清楚。比如在学习“L1正则化”时有必要先把“正则化”了解清楚。之前的工作经常将概念抽取和关系分类看作是两个独立的任务进行优化。本文通过自定义的五条规则来同时对关键概念抽取以及关系分类进行建模。 “Finding News Citations for Wikipedia”一文主要解决给维基百科中词条描述寻找新的引用。目前大量的词条描述缺少引用或者引用过时,该文通过以下步骤来解决此问题,首先使用监督训练方法对词条描述进行分类,其中类别包括“是否需要一条新的引用”以及其他类别,然后分类完之后,通过信息检索的方法来检索一些和词条描述相关的引用文章,最后再通过一个分类器对检索出来的引用文献进行分类,确定其是否是正确的引用。 此外,本次大会还设了论文讨论环节,大家可以为喜欢的论文点赞,在官网() Program-PaperDiscussion Forum中仍然可以观看到投票结果。在本次讨论当中可以就喜欢的论文进行多人讨论。 会议海报环节 本次大会的海报环节场面也是相当火爆,整个环节持续一个半小时,可以随时随地和作者进行交流。海报环节也不乏有趣的文章。 “Skipping Word: A Character-Sequential Representation based Framework for Question Answering”一文提出直接使用字符级表示来构建句子表示。近来字符级表示(character representation)已经在很多任务上被验证能够有效的提高性能,但是本篇文章与之前的工作不同的地方在于,之前的方法在构建句子的时候均为字符-词-句子的方式构建,而该文直接由字符-句子的方式构建。通过字符级表示得到句子表示之后,对其进行卷积以及采样。最后通过构建一个二分类任务进行训练,即问题和答案相关或者不相关。 “Incorporate Group Information to Enhance Network Embedding”一文提出将组的信息考虑到Network Embedding学习中。之前基本上所有的Network Embedding方法只考虑了网络的节点以及节点与节点之间的边。但是在很多社交网络中(比如YouTube和FaceBook),用户可以自行建组,别人也可以选择加入他人建立的组中。同一组的节点即使直接没有边,一般也会存在一些内在关系。所以该文考虑将组的信息加入到Network Embedding中。该文的思想比较简单,每个相同的组也会学到一个向量表示,组向量有两个用处:1)在利用周围节点预测中心节点时,组向量也会加入预测; 2)组向量也会预测组中的其他节点。最后目标函数是将上述两项相加而成,得到令人满意的实验结果。 (责任编辑:本港台直播) |