特邀报告

数据科学与计算智能的再思考
程学旗 研究员,中科院计算所
摘要:

大数据和人工智能是当前信息科技领域的两大热点主题,是信息化发展新阶段下新型信息技术的一体两面。近年来,以深度学习为代表的人工智能技术在很多领域取得突破,大数据驱动的智能应用蓬勃发展,深刻影响和改变着我们的生产和生活方式。然而,大数据分析和人工智能技术的单点突破难以持续支撑行业发展,亟需在数据科学和计算智能方面实现质的突破。报告结合当前技术发展趋势和实际应用需求,对数据科学与计算智能进行再思考,探讨数据科学的内涵和基础性问题、大数据赋能的新型计算范式、大数据在社会治理方面的应用,报告同时还介绍报告人团队前期开展的一些相关工作。

简历:

程学旗, 研究员、博士生导师,中科院计算所副所长,中国科学院大学人工智能学院副院长,国家杰出青年科学基金获得者、IEEE高级会员,在学术服务方面担任中国计算机学会大数据专家委员会秘书长、中国工业与应用数学学会大数据与人工智能专委会副主任、中国中文信息学会信息检索专委会主任以及国际重要学术会议主席(WSDM2015、CIKM2019、SIGIR2020等)。

作为数据科学方向带头人,在网络数据科学基础理论、大数据分析算法及引擎系统、互联网智能服务等方向取得了系列有持续影响力的特色成果。在本领域重要国际学术期刊和会议上发表论文300余篇,Google Scholar引用超过1万6千次,获得授权专利60余件。研制完成的大规模分布式机器学习系统(EasyML)、文本与自然语言处理工具集(MatchZoo)、大数据计算引擎(SQLGraph)在国际开源社区影响广泛,在查询理解、信息检索和排序学习方面的研究成果五次获得本领域重要学术会议(ACM SIGIR、ACM CIKM等)优秀论文奖。形成的大数据深度分析与服务的部分关键技术应用到了一批IT企业的生产系统中,推动了大数据分析技术的进步。获得国家科技进步二等奖三次,省部级及行业协会奖四次。



迈向通用连续型知识库
刘洋 教授,清华大学
摘要:

近年来,随着大规模预训练模型的快速发展,以深度学习为代表的人工智能呈现出两个重要态势。第一,神经网络从数据中自动获取连续型知识的能力显著增强。第二,能够统一处理多个应用任务的通用模型初显端倪。由此引发一个重要的科学问题是:能否建立一个通用连续型知识库,将不同任务、不同神经网络模型中蕴含的连续型知识进行集中存储、更新与利用?报告将介绍我们在构建通用连续型知识库的初步进展。我们提出了一种通用连续型知识库架构,支持不同任务、不同模型中连续型知识的导入、合并与导出。实验结果表明,将BERT与GPT-2导入通用连续型知识库后能够获得比两者更强的表达能力。

简历:

刘洋,清华大学计算机科学与技术系长聘教授、清华大学智能产业研究院副院长,国家杰出青年基金获得者。担任中国人工智能学会组织工作委员会副秘书长、中国中文信息学会计算语言学专委会常务副主任。研究方向是自然语言处理,获得国家科技进步二等奖1项、省部级科技奖励4项、重要国际会议优秀论文奖2项。曾担任国际计算语言学学会亚太分会执委兼秘书长、Computational Linguistics编委、ACM TALLIP副编辑、中国中文信息学会青年工作委员会主任。



自然语言处理的可理解性分析
黄萱菁 教授,复旦大学
摘要:

机器学习的可理解性指的是以用户可理解的,直截了当的方式解释模型预测值的程度。近年来,深度学习已经在自然语言处理中取得成功应用,大幅度提升了各种任务的性能,但由于其内在复杂性,可理解性和可解释性不够令人满意,也妨碍了深度学习方法的进一步推广。该报告首先介绍什么是可理解分析,自然语言处理中有哪些可理解分析,可理解分析的目的,然后从理解模型部件的功能属性、解释模型预测的行为、模型诊断三个方面介绍可理解分析在自然语言处理领域的发展现状,以及复旦大学团队在自然语言处理可理解分析方面取得的成果,最后展望了未来的研究趋势。

简历:

黄萱菁,复旦大学计算机科学技术学院教授、博士生导师,主要从事自然语言处理、信息检索和社会媒体分析研究。兼任中国中文信息学会常务理事、社会媒体专委会副主任,中国计算机学会自然语言处理专委会副主任、学术工作委员会委员。在高水平国际学术期刊和会议上发表了百余篇论文,负责的多个科研项目受到国家自然科学基金、科技部、教育部、上海市科委的支持。入选由清华—中国工程院知识智能联合研究中心和清华大学人工智能研究院联合发布的“2020年度人工智能全球女性”,“2020年度AI 2000人工智能全球最具影响力提名学者”及“福布斯中国2020科技女性榜”。