学术交流
热烈祝贺山东大学信息检索实验室荣获国际顶级会议SIGIR 2024最佳论文提名奖
2024年7月24日
第47届国际信息检索大会(The 47th International ACM SIGIR Conference on Research and Development in Information Retrieval)于2024年7月14日-2024年7月18日在美国华盛顿特区召开。山东大学信息检索实验室研究成果 Generative Retrieval as Multi-Vector Dense Retrieval 获得了本次会议的最佳论文提名奖。论文第一作者是计算机学院2023级硕士研究生吴世广,通讯作者是计算机学院研究员任鹏杰,合作者包括2021级泰山学堂本科生魏闻达、计算机学院张孟奇助理教授、陈竹敏教授,马军教授,莱顿大学任昭春教授和阿姆斯特丹大学Maarten de Rijke 教授。这是山东大学信息检索团队在近期连续获得国际顶级会议WSDM 2024最佳论文提名奖、EMNLP 2023杰出论文奖之后的又一杰出工作。
图 最佳论文提名奖获奖证书
SIGIR(International ACM SIGIR Conference on Research and Development in Information Retrieval)是信息检索领域的旗舰会议,也是中国计算机学会CCF推荐的A类会议。本届大会长文(Full Papers)提交791篇,录用160篇,录用率20%。
图 获奖论文第一作者2023级硕士生吴世广在华盛顿SIGIR会议做学术报告
在这篇论文中,研究人员探索了生成检索模型与多向量稠密检索模型之间的内在联系。主要内容为:随着生成式模型技术的不断发展,生成式检索(Generative Retrieval)这一新型检索范式引起研究人员的广泛关注。其根据用户查询(query)通过生成式语言模型直接生成相关的文档或文档编号(document id),从而完成文档检索任务的端到端建模和优化。 我们的研究发现,生成式检索与多向量稠密检索(Multi-Vector Dense Retrieval)存在着内在联系。生成式检索实际上是多向量稠密检索的一种特殊情况,两者在计算用户查询与文档的相关性时采用了相同的框架,即通过查询向量、文档向量和对齐矩阵的乘积之和。不同之处在于,生成式检索采用了独特的策略来计算文档标记向量和对齐矩阵。 该发现揭示了生成式检索背后的内在机制,为发展新的检索模型提供了新的见解。由于多向量稠密检索目前是最先进的稠密检索方法,阐明生成式检索与之间的联系,对于充分发掘生成式检索的潜力至关重要。更多的实验信息和代码已公开至https://github.com/Furyton/GR-as-MVDR 。
图 核心推导过程和结论