Optimal Partial Transport Based Sentence Selection for Long-form Document Matching

输入“/”快速插入内容

Optimal Partial Transport Based Sentence Selection for Long-form Document Matching

📚

长文本

论文：Optimal Partial Transport Based Sentence Selection for Long-form Document Matching

代码：https://github.com/ruc-wjyu/OPT-Match (暂未开源)

任务

传统的长文档匹配方法首先在跨文档句子对之间进行对齐，然后聚合所有句子级的匹配信号。但是，这种方法可能会出现问题，尽管两个文档整体上匹配良好，但大多数句子仍然可能不同，因为文档之间的对齐是部分的。那些不同的句子会导致虚假的句子级匹配信号，可能会掩盖真实的句子，从而增加学习匹配功能的难度。因此，准确选择文档匹配的关键句子是以一个关键问题。​

本文提出了一种新颖的匹配方法OPT-Match，该组件选择在匹配中起主要作用的句子。利用OPT的部分传输特性，选择的关键句子不仅可以有效地提高匹配精度，还可以解释匹配结果的合理性。​

common.docs_name - LarkCCM_Docs_Menu_Image

文档1重点介绍了药用和芳香植物行业的未来机会。文档2研究了spicata的外部储存。大多数句子都不相似，但文件1引用了文件2，因为它们都以药用和芳香植物为例。传统的，基于句子的匹配策略无法识别相关关系。​

动机

现有匹配策略

1.
基于句子的短文本匹配​

2.
映射到语义空间后进行层次匹配（词，句子，文章）​

但是，这些方法忽略了长文档通常包含多个段落和句子，这些段落和句子包含复杂的语义。对长文档匹配来说，文档对之间的对齐是局部的，关键句子之间的一些匹配信号可以确定文档级别的匹配结果。​

方法（模型）

模型结构：

方法特性

•
OPT-Match通过限制要传输的块来建模文档对齐的部分性质​

•
OPT-Match允许源域和目标域不一定具有相同的块，这与两个文档的长度可能相差很大的现象非常吻合。但是，基于OT的方法无法考虑这一点​

•
OPT-Match是一种与模型无关的方法，可以轻松地将其插入各种文档匹配模型中​

Proposed OPT-Match Method

Problem Statement

分别代表源文档，目标文档，标签（表示二者语义关系）

由连续的句子组成

学习目标：

将输入文档中的所有句子作为输入，输出它们之间关系的预测​

主要思想：

Optimal Partial Transport Based Sentence Selection for Long-form Document Matching​

Optimal Partial Transport Based Sentence Selection for Long-form Document Matching