学术交流



山东大学信息检索实验室师生论文获SIGIR 2024录用

2024年03月29日

近日,山东大学计算机科学与技术学院信息检索实验室师生撰写的论文被SIGIR 2024录用。第47届国际信息检索大会(The 47th International ACM SIGIR Conference on Research and Development in Information Retrieval)将于2024年7月14日-2024年7月18日在美国华盛顿特区举行。SIGIR是是信息检索领域的旗舰会议,也是中国计算机学会CCF推荐的A类会议。
录用的文章如下:

标题:Generative Retrieval as Multi-Vector Dense Retrieval
作者:吴世广,魏闻达,张孟奇,陈竹敏,马军,任昭春,Maarten de Rijke,任鹏杰
简介:信息检索是实现高效信息获取的关键技术。随着生成式模型技术的不断发展,生成式检索(Generative Retrieval)这一新型检索范式引起研究人员的广泛关注。其根据用户查询(query)通过生成式语言模型直接生成相关的文档或文档编号(document id),从而完成文档检索任务的端到端建模和优化。 我们的研究发现,生成式检索与多向量稠密检索(Multi-Vector Dense Retrieval)存在着内在联系。生成式检索实际上是多向量稠密检索的一种特殊情况,两者在计算用户查询与文档的相关性时采用了相同的框架,即通过查询向量、文档向量和对齐矩阵的乘积之和。不同之处在于,生成式检索采用了独特的策略来计算文档标记向量和对齐矩阵。 该发现揭示了生成式检索背后的内在机制,为发展新的检索模型提供了新的见解。由于多向量稠密检索目前是最先进的稠密检索方法,阐明生成式检索与之间的联系,对于充分发掘生成式检索的潜力至关重要。更多的实验信息和代码已公开至https://github.com/Furyton/GR-as-MVDR .

图:核心推导过程和结论