Learning to Match using Local and Distributed Representations of Text for Web Search 论文阅读报告

本文的作者主要来自微软公司Bing搜索引擎团队。

将查询与文档在潜在的语义空间中匹配是搜索引擎的重要任务。

在传统的信息检索模型中，文档的相关性由正文中查询项的精确匹配确定。而如何在考虑潜在语义空间的条件下更准确地将文档按照与查询的匹配程度排序是一个更复杂的问题。

本文首先介绍了出现在最有效的检索系统中的三个属性：

精确词匹配是所有信息检索系统的基础。当查询项是新的或很少出现时，精确匹配会特别重要。

查询项在文档中的匹配位置不仅反映了文档中相关部分的局部位置，还反映了各个查询词之间的匹配程度。

查询项和文档之间的不精确词匹配可以解决词汇表不匹配的问题。例如查询“Australia”时，“Sydney”也是一个好的证据。

对于上述三个属性，本文提出了一个新颖的“二重奏”文档排名模型。如图所示，该模型由两个独立的深度神经网络组成，一个模型使用局部表示匹配查询和文档，另一个使用分布式表示匹配查询和文档。

分布式模型在匹配之前将查询项和文档文本投射到嵌入空间中，而局部模型通过交互矩阵将每个查询项与每个文档项进行比较。文档项在“二重奏”模型的最终分数是本地模型和分布式模型的分数之和。

局部模型根据文档中查询项的精确匹配模式来估计文档相关性。分布式模型学习查询项和文档文本的低维度密集向量表示，然后计算它们在已知的嵌入空间中的位置相似性。卷积层和池化层的组合使分布式模型能够学习合适的文本表示形式，从而实现有效的不精确匹配。

本文使用的数据集均来自Bing。训练集是2012年1月至2014年9月的搜索日志。设置了两个不同的测试集，带权测试集中各查询频率与原始频率相同，取自2014年10月至2014年12月的搜索日志，非带权测试集在所有不同的查询中均匀地采样，取自2015年1月至2015年6月的搜索日志。

使用归一化折现累积增益（NDCG）度量，在带权和非带权的查询数据集上， “二重奏”模型均超过了其他所有模型。

本文结论是，提出了一种新的文档排序模型，该模型由两个独立的深度神经网络子模型组成。分析表明，该模型将来可能会通过更大的数据集实现更大的改进。

本文使用了一种“二重奏”模型来进行信息检索，主要是因为精确词匹配和非精确词匹配可以看作两个不同方面的属性。

如果能把两个描述不同方面的属性结合起来，一般效果会更好。