马琦的工作站
用户5564
添加快捷方式
分享
Optimal Partial Transport Based Sentence Selection for Long-form Document Matching
输入“/”快速插入内容
Optimal Partial Transport Based Sentence Selection for Long-form Document Matching
📚
长文本
论文:
Optimal Partial Transport Based Sentence Selection for Long-form Document Matching
代码:
https://github.com/ruc-wjyu/OPT-Match
(暂未开源)
任务
传统的长文档匹配方法首先在跨文档句子对之间进行对齐,然后聚合所有句子级的匹配信号。但是,这种方法可能会出现问题,尽管两个文档整体上匹配良好,但大多数句子仍然可能不同,因为文档之间的对齐是部分的。那些不同的句子会导致虚假的句子级匹配信号,可能会掩盖真实的句子,从而增加学习匹配功能的难度。因此,准确选择文档匹配的关键句子是以一个关键问题。
本文提出了一种新颖的匹配方法OPT-Match,该组件选择在匹配中起主要作用的句子。利用OPT的部分传输特性,选择的关键句子不仅可以有效地提高匹配精度,还可以解释匹配结果的合理性。
文档1重点介绍了药用和芳香植物行业的未来机会。文档2研究了spicata的外部储存。大多数句子都不相似,但文件1引用了文件2,因为它们都以药用和芳香植物为例。传统的,基于句子的匹配策略无法识别相关关系。
动机
现有匹配策略
1.
基于句子的短文本匹配
2.
映射到语义空间后进行层次匹配(词,句子,文章)
但是,这些方法忽略了长文档通常包含多个段落和句子,这些段落和句子包含复杂的语义。对长文档匹配来说,文档对之间的对齐是局部的,关键句子之间的一些匹配信号可以确定文档级别的匹配结果。
方法(模型)
模型结构:
方法特性
•
OPT-Match通过限制要传输的块来建模文档对齐的部分性质
•
OPT-Match允许源域和目标域不一定具有相同的块,这与两个文档的长度可能相差很大的现象非常吻合。但是,基于
OT
的方法无法考虑这一点
•
OPT-Match是一种与模型无关的方法,可以轻松地将其插入各种文档匹配模型中
Proposed OPT-Match Method
Problem Statement
分别代表源文档,目标文档,标签(表示二者语义关系)
由连续的句子组成
学习目标:
将输入文档中的所有句子作为输入,输出它们之间关系的预测
主要思想: