不同的排序结构的组合,以及不同的输入表征都可以被纳入排名模型的改进方案。我们用了来自两个标准集——同质的新闻集(Robust)和一个大规模的异结构网络集(ClueWeb)——的超过六百万个查询和文档,来进行网络训练。 我们的实验结果显示,如果我们采用了恰当的目标函数,并且让网络根据“弱监督数据”(实验排名模型+嵌入模型)来学习输入表征,我们的网络就能有非常出色的表现。 因为我们仅使用了BM25作为模型训练的监督,并且经过训练的模型甚至还超越了BM25,所以现在来说,模型的表现已经非常了不起了。 一方面,尽管完全的“词匹配”是检索和排序的一个重要特征,但它还不足以获得相关性的概念。另一方面,BM25仍是一个相对高效的文字匹配方法。 如何工作 我们向我们的神经网络提供的虽然只是一些弱标记的案例,但是我们成功地让网络超越了信号本身,并从不同的角度看到了这些案例中的相关性。 因此,当“词匹配”无法正确指示相关性的时候,模型可以自己完成相关性的推导。举个例子:学习密集表征(比如“嵌入表征”)能帮助网络捕捉语义匹配,检测语义相关性;而BM25就无法做到这些。 从我们的“弱监督”模型训练实验中,我大致总结了一些关键信息: 主要内容:利用大量的无监督数据来推断“弱标签”,并把那些“弱标签”的弱信号用于有监督模型的学习。 定一个能够让你的模型远离弱监督数据缺陷的目标。 让机器自己决定采用哪种表征,atv,并让它自己提取其中的特征。向机器人工输入特征,会扼杀模型的创造力! 如果输入的特征数据是经过设计的,那么模型的普遍性就很有可能会被削弱,你可能会面临“过度拟合”的问题。 假如你有足够多的训练数据,那么你的机器就能仅通过一个个本地的案例,轻松掌握全球范围内的信息。 如果你有足够的数据源,atv,你可以学习与你的任务更加匹配的“嵌入”。通过不断的更新,“嵌入”与你的任务会更加匹配。但前提是你有足够多的数据源。 当你的模型中不存在表征学习时,神经网络中的非线性部分的用处不大。深度神经网络最重要的优越性在于它高效的表征学习的能力,当你的深度网络“深”到一定程度的时候,它的优越性就不起作用了。 (责任编辑:本港台直播) |