因为各种应用各有千秋,所以这个问题的回答会有些主观性。通常而言,可以使用 TF-IDF 这样的简单的统计学方法来解决文档相似性问题。CNN 本质上是以迭代式地降维的方式来对输入数据建模,使得它非常适合主题分类和文档摘要等任务。RNN 非常擅长建模文本序列,这使得它们非常适合语言句法建模。在各种框架中,GloVe 的预训练词嵌入的表现优于 vanilla Word2Vec,其被认为是当前最佳的。 问题 5:在哪些用例中,这些权衡比神经网络的好处更重要? 正如上一个问题解释的那样,对于一些简单的信息检索用例(比如文档排序),TF-IDF 和 词 PMI(点互信息)就已经足够了。用不着在这样的应用中使用神经网络。 16 总结 本论文总结了最近几年涌现的最先进的神经网络技术的重要方面。当涉及到开发从简单的聊天机器人到通用人工智能实体概念化等一系列应用时,开奖,机器翻译、自然语言理解和自然语言生成的领域是重要的研究领域。 在第 15 节的讨论部分总结了被调查论文的结果,并为新手进入该领域提供了一个直接可用的参考。 对于未来的工作,我们打算实验性地比较不同的词嵌入方法,以作为迭代地构建高质量的用于未来机器学习模型使用的引导。 致谢和参考文献(略) 原文链接:https://arxiv.org/abs/1704.08531 本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |