学术交流



热烈祝贺山东大学信息检索实验室多人论文被SIGIR2021接收

2021年4月19日

热烈祝贺信息检索实验室多名同学和老师的论文被信息检索国际顶级会议SIGIR 2021接收!实验室共有6篇full paper和1篇resource paper被会议录用。

SIGIR是信息检索领域的国际顶级学术会议,是中国计算机协会推荐的A类国际会议,今年的会议主题涵盖了信息检索、推荐系统以及自然语言处理相关的多个研究方向,大会full Paper录用率仅为21%。

Full Paper:

标题:Wizard of Search Engine: Access to Information through Conversations with Search Engines
作者:Pengjie Ren, Zhongkun Liu, Xiaomeng Song, Hongtao Tian, Zhumin Chen, Zhaochun Ren and Maarten de Rijke
[论文详情]
简介:对话式信息获取(CIS)在实现用户更好地与信息交互方面发挥着越来越重要的作用。但由于缺乏合适的资源,以往关于CIS的研究局限于对理论或概念框架的研究、以实验室为基础的用户研究或对CIS特定部分的研究。因此本文从三个方面对对话式信息获取展开了研究:1)构建了一个基准数据集(Wizard of Search Engine, WISE),利用它可以对对话式信息获取的各个方面进行全面深入的研究;2)构建了由6个子任务组成的管道式框架,包括意图识别(Intent Detection,ID)、关键词提取(Keyphrase Extraction,KE)、动作预测(Action Prediction,AP)、查询选择(Query Selection,QS)、篇章选择(Passage Selection,PS)和回复生成(Response Generation,RG);3)设计了一个能够针对所提出的管道式框架的“预训练-微调”学习策略,以充分利用现有相关数据集来降低模型对目标数据集在规模上的需求。基于对WISE数据的统计,本文展示了CIS的一些有用的特性。本文的实验部分也展示了效果最好的模型变体可以实现有效的CIS。另外,本文也发布了数据集、代码以及评测脚本,以促进未来在这一领域的进一步的研究。

标题:Cross-Domain Contract Element Extraction with a Bi-directional Feedback Clause-Element Relation Network
作者:Zihan Wang, Hongye Song, Zhaochun Ren, Pengjie Ren, Zhumin Chen, Xiaozhong Liu, Hongsong Li and Maarten de Rijke
[论文详情]
简介:现有的合同要素抽取方法将该问题看成序列标注任务,即将句子中的每个词分类成一种合同要素。对于序列标注任务来说,一项重要的挑战是如何将知识从一个领域迁移到另外一个领域。商业合同和个人合同相比,合同文本和要素种类都存在较大的差异,因此将知识从商业合同领域迁移到个人合同领域(或者相反方向)存在着一定挑战。本文定义了跨域合同要素抽取任务,并提出了双向反馈的条款-要素关系网络(Bi-FLEET),完成合同要素抽取的跨域迁移。

标题:Conversations Powered by Cross-Lingual Knowledge
作者:Weiwei Sun, Chuan Meng, Qi Meng, Zhaochun Ren, Pengjie Ren, Zhumin Chen, Maarten de Rijke
[论文详情]
简介: 对话系统大多使用外部知识来增强生成回复的信息量。现有工作只考虑有大量本语言知识源的场景。对于那些资源有限的语言,使用本语言知识来增强对话生成是存在困难的。对此,本文提出了基于跨语言知识的对话(CKGC),即利用大量的外语知识来提升目标语言的对话生成能力。因此CKGC任务面临了两个挑战:(1)跨语言知识的检索以及表达的困难;(2)缺少标注的测试数据。对于(1),本文提出CSKD,即利用大量的辅助语言对话语料,通过知识蒸馏的方法来增强目标语言的知识获取与表达能力。对于(2),本文标注了CKGC测试数据集来促进相关的研究。最后实验验证了本文方法的有效性。

标题: Few-Shot Variational Reasoning for Medical Dialogue Generation
作者: Dongdong Li, Zhaochun Ren, Pengjie Ren, Zhumin Chen, Miao Fan, Jun Ma, Maarten de Rijke
[论文详情]
简介:在医学对话中存在两个关键特征:患者状态和医生的行为,这些对于支持临床决策的对话系统异常重要。当前的医疗对话系统依赖于大量的数据标注,并且注释者需要大量的专业医学背景知识,这意味着标注成本极高,并且出于隐私原因,大规模人工标注往往无法满足。本文将患者状态和医生行为建模为隐变量,提出了一种半监督的生成模型VRBot,减少模型对于监督数据的依赖。

标题:Initiative-Aware Self-Supervised Learning for Knowledge-Grounded Conversations
作者:Chuan Meng, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Tengxiao Xi and Maarten de Rijke
[论文详情]
简介:本文面向知识驱动的人机对话(Knowledge-Grounded Conversation, KGC)的研究,具体为通过提升知识驱动的人机对话系统在知识选择(选择将会被用于当前回复的合适的知识)重要任务上的表现来提升系统的最终表现。现有研究工作没有考虑知识选择的混合主导特点(Mixed Initiative)来提升系统的知识选择表现,即知识选择既可以是用户主导的(系统通常基于当前包含用户提出的新话题或问题的对话上下文来选择当前知识),也可以是系统主导的(系统通常基于之前选择过的知识来选择当前知识)。本文提出了一种混合主导的知识选择模型,其显式区分了用户和系统主导的知识选择,具体引入了两个知识选择器去分别建模二者,并设计了一个主导辨别器去判别知识选择的主导类型。为解决训练集中没有知识选择主导类型标注的挑战,本文设计了一个主导感知的自监督学习方法来帮助模型学会去判别知识选择的主导类型。实验结果表明,提出的模型在两个公开数据集上超过了当前的先进方法。

标题:Multi-type Textual Reasoning for Product-aware Answer Generation
作者:Yue Feng, Zhaochun Ren, Weijie Zhao, Mingming Sun and Ping Li
[论文详情]
简介:通过阅读评论和产品属性,电子商务问答任务旨在自动为与产品相关的问题生成听起来自然的答案。但是,现有方法假定每个评论和每个产品属性在语义上都是独立的,而忽略了所有这些多类型文本之间的关系。在本文中,我们提出了一个具有评论属性的异构图神经网络(缩写为RAHGNN)来对所有多类型文本的逻辑关系进行建模。 RAHGNN由四个组件组成:审阅属性的异构图构造器,问题感知输入编码器,异构图关系分析器和基于上下文的答案解码器。具体来说,在构造具有评论和产品属性的异构图之后,我们分别基于问题关注网络和键值存储网络来推导每个评论节点和属性节点的初始表示。 RAHGNN使用节点级注意和语义级注意根据子图结构和子图语义含义分析关系。最后,答案是由递归神经网络以关系表示作为上下文输入而生成的。在大规模的现实世界电子商务数据集上的大量实验结果不仅显示了RAHGNN优于现有技术的性能,而且还证明了其在产品感知答案生成中对多种类型文本关系的潜在良好可解释性。

Resource Paper:

标题:Simulating User Satisfaction for the Evaluation of Task-oriented Dialogue Systems
作者:Weiwei Sun, Shuo Zhang, Krisztian Balog, Zhaochun Ren, Pengjie Ren, Zhumin Chen, Maarten de Rijke
[论文详情]
简介:评测是任务型对话研究的重要部分。用户模拟的方法作为评测方法,由于具有高效和大规模部署的优势,近年来得到关注。预测用户在与系统交互时的满意度变化,对于构建一个更加真实的用户模拟器是十分关键的。但由于缺少标注数据,现有的工作并没有考虑用户模拟中的满意度变化。为此,我们提出了“用户满意度模拟”任务,并提出了用户满意度标注数据集,USS,包括跨多个领域(真实电商,预定,推荐)的,共6800段标注对话。我们标注了五个等级,用户句子的满意度以及对话总体满意度。我们在用户满意度预测和行为预测上使用三种方法。通过在USS上的实验发现,深度学习方法表现更好,在领域内预测中RNN-based方法表现更好,而在跨领域预测中BERT-based方法表现更好。