学术交流



山东大学信息检索实验室师生7篇论文获EMNLP 2023录用

2023年10月13日

近日,山东大学计算机科学与技术学院信息检索实验室师生撰写的7篇论文被EMNLP 2023录用,其中3篇被主会录用,4篇录用为Findings。EMNLP(Conference on Empirical Methods in Natural Language Processing)是自然语言处理领域的顶级国际会议,由国际计算语言学会(ACL)主办,是CCF-B类推荐会议。EMNLP 2023将于2023年12月6日至10日在新加坡举行。
录用的文章如下:

Main Conference:

标题:Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents
作者:孙维纬,颜令勇,马新宇,王帅强,任鹏杰,陈竹敏,殷大伟,任昭春
简介:大语言模型(LLMs)在语言任务上已经展示出了强大的能力。但是,LLMs在信息检索领域的应用主要在于利用其文本生成能力进行数据增强或答案生成,如何使用LLMs进行文本排序仍是一个未解答的问题。此外,LLMs预训练目标和排序任务目标的不一致也使得其在排序任务上面临挑战。在本文中,我们研究类似ChatGPT和GPT-4的LLMs在相关性排序任务上能力。我们的实验表明,通过合理的方法提示的LLMs可以在信息检索基准测试上取得和之前最优的有监督系统更好的结果。进一步,为了更公平的评估LLMs的排序能力,我们基于最新的话题开发了一个新的测试集-NovelEval,用于测试模型在未知知识上的排序能力,并避免数据污染对评估的影响。最后,为了提升在实际场景中的效率,我们提出了排序蒸馏方法,将ChatGPT的排序能力蒸馏到一个更小的专用模型中。我们实验表明蒸馏得到的一个440M参数的学生模型在BEIR数据集上表现由于3B参数的有监督模型。

图:ChatGPT和GPT-4在排序任务(TREC,BEIR和Mr.TyDi)上的平均结果。图中包括了BM25和之前最优的有监督系统(SOTA Sup.,比如monoT5)。

标题:Syllogistic Reasoning for Legal Judgment Analysis
作者:邓文韬,裴家欢,孔轲祎,陈哲,韦福如,李玉军,任昭春,陈竹敏,任鹏杰
简介: 法律裁判助理的发展迅速,这要归功于大语言模型的巨大进步。然而,如果没有对法律判断的可靠分析,人们很难相信模型产生的结果。对于法律从业者来说,作为法律决策过程的一部分,利用三段论推理(如图1所示)来选择和评估当事人的论点是一种常见的做法。但是,由于缺乏资源,用于法律判决分析的三段论推理的发展受到阻碍:(1)没有用于法律判决的大规模三段论分析数据集,(2)没有一套既定的法律判决分析基准。在本文中,我们构建了一个用于法律判决分析的三段论推理数据集。

图:三段论式的刑法案件分析样例

标题:Multi-Source Multi-Type Knowledge Exploration and Exploitation for Dialogue Generation
作者:倪宣凡,戴洪良,任昭春,李丕绩
简介: 开放领域多轮对话生成面临着缺乏来自不同来源的多种类型知识的重大挑战。现有方法和模型通常专注于识别特定类型的对话知识,并利用相应的数据集进行训练。然而,这种方法往往导致模型的泛化能力有限,以及增加计算资源。近期,大规模语言模型(LLMs)在自然语言处理任务上表现出了令人印象深刻的性能。为了利用LLMs的知识存储能力,我们提出了一个名为KnowEE的框架,该框架通过利用多样化的数据集从LLMs中探索多源多类型的知识,然后将获得的知识注入进对话历史中,进行回复生成。我们的框架包括两个阶段:首先,我们利用五个包含各种类型知识的外部数据集,提取与对话上下文最相关的样本,这些样本作为提示输入进模型中,来生成相应类型的知识;其次,我们以语句级和对话级的形式将获得的知识注入到进行中的对话上下文中,然后输入到LLMs中生成最终的对话回复。自动和人工评估结果都证实了我们的框架在探索和利用多源多类型知识生成连贯、信息丰富、流畅的对话回复方面的有效性。

图:模型架构

Findings:

标题:Generalizing Few-Shot Named Entity Recognizers to Unseen Domains with Type-Related Features
作者:王梓涵,赵子奇,陈竹敏,任鹏杰,Maarten de Rijke,任昭春
简介:近些年,低资源情景下的命名识别方法已经取得了显著进展。然而,当前方法主要集中在领域内的设置上,在领域外的示例仍然存在困难。为了解决该问题,最近的研究采用了在实体和上下文层面的数据增强,仅使用少量标记的领域内示例就可以实现跨领域命名实体识别(NER)。然而,先前的工作面临两个挑战:首先,增强仅限于训练数据,导致生成的数据与领域外示例之间的相似度很低。其次,从源领域传递的知识是隐含的且不足够。在本文中,我们提出了PLTR(prompt learning with type-related features)模型以应对这些挑战。如下图所示,PLTR根据相互信息标准从源领域中自动提取实体类型相关特征(TRFs),旨在识别源领域内有用的知识。为了有效减少训练数据和领域外数据之间的差距,PLTR通过选择相关的实体类型特征为每个未见过的示例生成唯一的提示模板。实验结果表明PLTR在领域内和跨领域数据集上取得了显著的性能改进。使用PLTR有效实现了命名实体识别模型迁移和增加了源领域与未见领域之间的句子表示相似性。

图: PLTR模型整体框架

标题:DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue Assessment
作者:赵玉琨,颜令勇,孙维纬,孟崇,王帅强,程智聪,任昭春,殷大伟
简介:对话评估对于开放式对话系统的研发十分重要。现有对话数据集只考虑了部分评估指标,如对话连贯性,缺乏系统性的符合人类认知的评估。此外,现有的对话数据通常是通过雇佣的标注人员产生的,这和真实的用户场景存在差异。在本文中,我们发布了一个大规模的中文对话质量评估数据集,名为DiQAD,用于自动评估开放式对话的质量。具体来说,我们(1)基于真实人类偏好构建了一个多维度的对话质量评估体系;(2)基于所构建的标注体系标注了一个大规模的真实场景下的用户对话数据集,包括约100,000个对话。我们进行了多个实验并汇报了在DiQAD上一些基线方法的性能表现。

图: DiQAD在领域和话题上的分布

标题:Multi-Defendant Legal Judgment Prediction via Hierarchical Reasoning
作者:吕由钢,郝继泰,王梓涵,赵凯,高莘,任鹏杰,陈竹敏,王芳,任昭春
简介:在刑事事实描述中,多个被告人通常会存在复杂的互动,现有的法律判决预测方法无法很好地处理,因为它们集中在预测单一被告案件的判决结果(例如,法律条款、罪名和刑期)。为了解决这个问题,我们提出了多被告法律判决预测任务,目的是自动预测多被告案件中每个被告的判决结果。多被告法律判决预测任务带来了两个挑战:(1)不同被告之间的判决结果难以区分;(2)缺乏真实世界的数据集进行训练和评估。为了解决第一个挑战,我们将多被告判决过程形式化为层次推理链,并引入一个名为层次推理网络的多被告法律判决预测方法,该方法遵循层次推理链来确定每个被告的犯罪关系、量刑情节、法律条款、罪名和刑期。为了应对第二个挑战,我们收集了第一个真实世界的多被告法律判决预测数据集,名为 MultiLJP,以加速未来相关研究。在MultiLJP数据集上的广泛实验验证了我们提出的层次化推理网络的有效性。

图: 层次化推理方法示意图

标题:Towards a Unified Framework for Reference Retrieval and Related Work Generation
作者:施政良,高莘,张振,陈秀颖,陈竹敏,任鹏杰,任昭春
简介:相关工作生成任务旨在自动生成相关研究课题的综合调查,为研究人员节省时间和精力。现有的方法通过使用大规模科学语料库中经人工标注的参考文献作为信息源来简化这项任务,但这种方法需要耗费大量的时间和成本。为此,我们提出了一个基于大规模语言模型增强的框架,将参考文献检索和相关工作生成这两个任务进行统一。具体来说,首先利用语言模型的世界知识来扩展用户的输入,并为随后的检索阶段生成查询。然后,我们提出了一个基于词汇表示增强的稠密向量检索模型来搜索相关参考文献,其中引入了词汇级别的相似度匹配算法。相关工作生成任务不同于传统的多文档摘要任务,不仅需要总结参考文献中的要点,还应该分析复杂的关系,并将其逻辑地呈现出来。因此,我们利用指令微调的方法对模型进行训练,生成高质量的相关工作。我们在两个广泛应用的数据集上进行的实验。结果表明,本文提出的方法在生成和检索指标上都优于最先进的基线模型。

图: 模型架构