“Distilling Word Embeddings: An Encoding Approach”一文中提出通过提取高维的词向量中的知识,并蒸馏(distilling)到低维的词向量中,在保证一定的准确率的前提下来提高运行效率。该文首先训练得到一个高维的词向量,之后在其上加一层非线性变化(单程全连接)得到一个低维的词向量,非线性变化的参数由最后的任务 (比如用低维词向量用作情感分析或者分类的输入)训练数据更新得到。最后实验结果表明,该文提出的方法优于直接在原始语料库中训练一个低维的词向量,直播,同时准确率最高的结果是由高维词向量得到,但是低维词向量的耗时是高维词向量耗时的0.04倍。 “Learning to Rank System Configurations”一文中通过使用学习排序的方法来自动配置任务算法中的参数。在实际模型中,比如信息检索模型以及拓展模型,经常包含很多种不同的特征,每一维的特征经常不是独立的,所以手工去调节这些参数将要花费大量的时间。该文中提出用最新的学习排序的方法来同时自动配置所有的特征。在实验中进行了多项任务,每项任务都事先给出一系列特征,最后的实验结果优于BM25和网格搜索(Grid Search)的结果。 通过这次会议论文分析,可以看出信息检索和自动问答系统在科学研究和现实生活中非常受欢迎,在解决信息检索任务时,既有传统的学习排序方法,也有目前火热的深度学习算法。但是目前很多深度学习算法在信息检索或其他自然语言处理任务中效果仍然不及其在图像上应用的结果,究其原因主要在于图像和文本有很大的本质区别,将适用于图像的深度模型直接移植用于文本往往效果不会好,应根据文本自身性质来改变网络结构,比如上述提到的value-based的方法。深度学习继续在信息检索和自动问答系统如何发力?让我们拭目以待。 如果读者对信息检索或者数据挖掘领域感兴趣,也欢迎大家随时和笔者互动,让我们在工作、学习中彼此交流与分享(笔者邮箱:[email protected])。 作者简介
王鹏伟 微软亚洲研究院数据挖掘与企业智能组(DMEI)的一名实习生,现在就读于华南理工大学电子与信息学院,同时也是一名华南理工大学和微软亚洲研究院联合培养的博士生,主要研究方向为数据挖掘、知识抽取、自然语言处理以及人工智能。 你也许还想看: 感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:[email protected]。微软小冰进驻微软研究院微信啦!快去主页和她聊聊天吧。 (责任编辑:本港台直播) |