《DuReaderretrieval: A Large-scale Chinese Benchmark for Passage Retrieval fromWeb Search Engine》论文阅读_python

DuReaderretrieval: A Large-scale Chinese Benchmark for Passage Retrieval fromWeb Search Engine

作者：Yifu Qiu
机构：百度

简介

当前现存段落检索数据集存在以下两个问题：

基于此，提出了DuReader Retrieval 数据集，弥补以上两个问题，并且在baselines模型上验证效果，发现本书数据集仍然具有较大进步空间。

数据集介绍

DuReader Retrieval 数据集，数据来自百度搜索，标注方式采用远程标注，

基于DuReader数据集，手写答案
答案与段落进行匹配，使用span-level F1做为评价指标
当F1的分数大于阈值0.5，标注为positive，反则标注negative
篇章长度控制，1）如果一个篇章长度小于256，则认为这个篇章为段落，2）对于篇章中的每个段落，如果长度小于256，则进行拼接后面的段落直到长度超过256。被拼接中有一个段落的标签为positive，则认为拼接后的段落为positive。
删除篇章的title，提升检索难度

Reducing False Negatives

为了减少标注错误的语料，

Removing Similar Questions

减少数据泄露问题，

实验

baseline：

BM25
DE w/ BM25 Neg
CE w/ BM25 Neg
CE w/ DE Neg
baseline之间的关系， 2是检索是神经网络 3 重排是神经网络 4 检索和重排都是神经网络使用BM25抽取负样本，对2和3进行初始化，然后2 检索负样本做为4的训练集

评价指标：
MRR
recall@1
recall@50

结果

基于神经网络的模型效果明显好于BM25.

同时，还对相似问题去除做了对比，发现CE w/o Sim Q 不带相似问题，在others问题上表现更好

在zero-shot上表现明显弱于传统方法，经过fine-tuning后，效果有所提升，所以领域适用性并不好

总结

模型在数据集中存在的问题：

欢迎分享，转载请注明来源：内存溢出

《DuReaderretrieval: A Large-scale Chinese Benchmark for Passage Retrieval fromWeb Search Engine》论文阅读