第五届齐鲁智能媒体论坛


主办单位:山东省科学院人工智能研究院
协办单位:山东大学、山东师范大学、山东财经大学
时间:2018年10月15日-2018年10月16日
地点:山东省济南市喜来登酒店济南市历下区龙奥北路8号 (0531)81629999



报告简介

黄铁军 教授 10月15日8:15
简介:黄铁军,博士,北京大学信息科学技术学院教授,计算机科学技术系主任,主要研究方向为视觉信息处理与神经形态计算。国家杰出青年科学基金获得者,教育部长江学者特聘教授,兼任新一代人工智能产业技术创新战略联盟(科技部)秘书长,数字音视频编解码技术标准工作组(工信部)秘书长,国家人工智能标准化总体组(国标委)副组长。发表(含合作)学术论文两百多篇,专著两部,作为主要起草人制定5项国家标准、4项ISO/IEC标准和3项IEEE标准,授权发明专利40多项。中国电子学会理事(2006-),中国计算机学会杰出会员(2015-),荣获国家技术发明二等奖(2017,第一完成人),两次荣获国家科学技术进步二等奖(2012第二完成人,2010第四完成人),中国科协求是杰出青年成果转化奖(2014)和IEEE计算机学会Computing Now奖(2013)。
报告题目:类脑计算与仿视网膜超速全时芯片

摘要:类脑计算与仿视网膜超速全时芯片强人工智能也称通用人工智能(AGI),是指达到人类水平的(因而超越人类)、能够自适应地应对外界环境挑战的、具有自我意识的人工智能。这种AI能否实现?如何实现?报告人认为一种可行的技术路线是:先放下“理解智能”的迷思,以神经科学为基础,构建神经形态计算系统,再通过训练涌现AGI。简言之,制造类脑机,训练出AGI。视觉感知是生物智能的重要组成部分,生物视觉信息处理机制优越,但受限于生理限制,视网膜发放神经脉冲的频率不可能超过一百赫兹。仿视网膜超速全时视觉芯片像生物视网膜一样采用神经脉冲表达视觉信息,脉冲发放频率“超速”人眼百倍,能够“看清”高速旋转叶片的文字。“全时”是指从芯片采集的神经脉冲序列中重构出任意时刻的画面,这是实现真正机器视觉的基础,有望重塑视觉信息处理体系,为无人驾驶、机器人、视频监控等领域带来重大变革。

Prof. Mohan Kankanhalli 10月15日9:00

简介:Mohan Kankanhalli is Provost's Chair Professor of Computer Science at the National University of Singapore (NUS). He is also the Dean of NUS School of Computing. Before becoming the Dean in July 2016, he was the NUS Vice Provost (Graduate Education) during 2014-2016 and Associate Provost during 2011-2013. Mohan obtained his BTech from IIT Kharagpur and MS & PhD from the Rensselaer Polytechnic Institute. His current research interests are in Multimedia Computing, Information Security & Privacy, Image/Video Processing and Social Media Analysis. He directs the SeSaMe (Sensor-enhanced Social Media) Centre which does fundamental exploration of social cyber-physical systems which has applications in social sensing, sensor analytics and smart systems. He is on the editorial boards of several journals including the ACM Transactions on Multimedia, Springer Multimedia Systems Journal, IEEE Multimedia and Springer Multimedia Tools & Applications Journal. He is a Fellow of IEEE.

报告题目:Exploring Visual Sentiment: From Experimental Psychology to Computational Modeling

摘要:A picture is worth a thousand words. Visual representation is one of the dominant forms of social media. The emotions that viewers feel when observing a visual content is often referred to as the content's visual sentiment. Analysis of visual sentiment has become increasingly important due to the huge volume of online visual data generated by users of social media. Automatic assessment of visual sentiment has many applications, such as monitoring the mood of the population in social media platforms (e.g., Twitter, Facebook), facilitating advertising, and understanding user behavior. However, in contrast to the extensive research on predicting textual sentiment, relatively less work has been done on sentiment analysis of visual content. Moreover, visual sentiment is more subjective and implicit when compared to textual sentiment. There exists a significant semantic gap between high-level visual perception and low-level computational attributes.

庄越挺 教授 10月15日9:45
简介:庄越挺,国家杰出青年基金获得者,教育部长江学者特聘教授,973项目首席科学家,“百千万人才工程”国家级人选,国务院学位委员会计算机学科评议组成员,浙江省特级专家。曾任浙江大学计算机学院院长(2009年~2017年),浙江大学人工智能研究所所长(2006年~2016年),中国图像图形学学会副理事长(2006年~2016年)。现任数字图书馆教育部工程研究中心主任,教育部微软视觉感知联合实验室主任,中国工程科技数据和知识技术研究中心主任,中国人工智能学会常务理事,浙江省计算机学会理事长。主要从事基于大数据的人工智能、多媒体信息检索、跨媒体计算理论等领域的研究。
报告题目:跨媒体计算及其未来

摘要:本报告从回顾多媒体研究出发,引出跨媒体及其跨媒体计算的概念,结合报告人的研究工作,重点探讨跨媒体计算的若干关键问题,包括跨媒体索引、跨媒体排序、跨媒体内容生成、跨媒体知识问答等。最后,结合对人类认知的理解,探讨跨媒体智能及其未来的发展。

徐常胜 教授 10月15日10:50

简介:徐常胜,中国科学院自动化所特聘研究员,合肥工业大学计算机与信息学院院长,国家杰出青年基金获得者,国家重点研发计划项目“大数据多模态交互协同关键技术”首席科学家,中国科学院王宽诚率先人才计划卢嘉锡国际团队“多媒体计算国际团队”负责人。目前是国际电子电气工程师学会会士(IEEE Fellow),国际模式识别学会会士(IAPR Fellow)和国际计算机学会杰出科学家(ACM Distinguished Scientist),担任国际计算机学会多媒体专委会中国区(ACM SIGMM China Chapter)主席和中国计算机学会多媒体专委会副主任。担任过国际刊物“IEEE Transactions on Multimedia”和“ACM Transactions on Multimedia Computing, Communication and Applications”编委,担任过国际顶级多媒体会议“2009 ACM Multimedia Conference”程序委员会主席和2010年全国多媒体会议程序委员会主席。主持过国家自然科学基金重点项目和国际合作重点项目、973课题、中科院前沿重点项目和国际合作重点项目等,在多媒体分析,计算机视觉,模式识别,图像处理等领域发表论文300多篇,其中IEEE和ACM汇刊论文80篇,国际顶级会议会议论文30余篇。谷歌学术引用超过10000次,H-Index:54。在多媒体国际顶级会议和期刊上获得最佳论文奖10余次,包括2016年国际多媒体顶级会议ACM Multimedia的唯一最佳论文奖、2016年ACM Trans. on Multimedia Computing, Communications and Applications的唯一最佳论文奖、2016年IEEE Trans. on Multimedia的最佳论文荣誉奖、2017年IEEE Multimedia的唯一最佳论文奖等。获得过2009年中国计算机学会青年科学家奖,2012/2013/2016/2017年中国科学院优秀导师奖。

报告题目:连接社会多媒体大数据

摘要:社会媒体的快速发展促生了各种各样的社会媒体网络(Online Social Networking, OSN)服务。社会媒体具有明显的跨社会媒体网络特性:网络用户会同时注册并使用多个社会媒体网络服务。研究这些用户贡献的跨社会媒体网络数据对于连接社会媒体中的数据孤岛、并挖掘社会多媒体大数据额应用价值具有重要意义。从数据融合的角度,理解跨社会媒体网络数据关联是更复杂社会媒体分析和应用的基础;从用户建模的角度,利用用户在不同社会媒体网络中的数据可以帮助构建完整用户画像并提供更优质的信息服务。报告将从以用户为中心的角度介绍跨社会媒体网络数据挖掘和应用的基本研究框架,并结合研究案例介绍在这一框架下的两个基本任务:(1)From User:跨社会媒体网络关联挖掘;(2)For User: 跨社会媒体网络用户建模。

赵耀 教授 10月15日11:35

简介:赵耀,长江学者特聘教授、国家杰出青年科学基金获得者、万人计划科技创新领军人才、科技部重点领域创新团队带头人。现任北京交通大学信息科学研究所所长,“现代信息科学与网络技术”北京市重点实验室主任。研究领域为数字媒体信息处理与智能分析,包括图像\视频压缩,数媒体内容安全,媒体内容分析与理解,人工智能等。主持了973计划、863计划等课题30余项。在包括IEEE Trans.等国内外期刊、会议上发表论文200余篇。作为第一完成人获北京市科学技术奖一等奖等省部级奖励3项。指导的博士生5人获北京市和中国计算机学会优秀博士论文奖。主持的《多媒体技术应用》课程获选网络教育国家精品课程,获北京市高等教育教学成果一等奖。被遴选为IEEE Senior Member、 IET Fellow,并受邀担任了 IEEE Transactions on Cybernetics、IEEE Signal Processing Letters等多个国际杂志编委。曾获霍英东青年教师基金奖,詹天佑铁道科技奖青年奖,北京市五四奖章等荣誉称号,他是国务院学科评议组成员,享受国务院政府特殊津贴。

报告题目:弱监督图像语义分割

摘要:为减少像素级标注的巨大负担,近年来提出了许多弱监督语义分割技术。随着深度卷积神经网络的进步,物体语义分割技术取得了显著的进步。本报告将重点介绍课题组在基于深度学习的弱监督语义分割方面的部分研究成果。

聂飞平 教授 10月15日14:00
简介:聂飞平,西北工业大学教授、博士生导师。主要研究兴趣为机器学习理论和方法,并将所设计的方法成功应用于图像分割与标注、多媒体信息理解与检索、生物信息学等多个领域的实际问题中。在相关领域已发表系列论文,其中CCF A类论文150余篇,IEEE/ACM汇刊论文80余篇,论文总引用为10000余次,H指数为54。常年应邀担任相关领域期刊会议的编委、审稿专家、领域主席或资深程序委员。
报告题目:大规模结构化图学习及其在大数据聚类中的应用

摘要:大数据聚类的主要挑战之一在于如何以极低的成本处理海量数据,同时提高聚类效果。很多大规模聚类方法基于稀疏采样的思想,聚类效果好坏主要取决于模型能否高效学习代表点和原始数据的关系。在结构化图学习的基础上,我们提出了一种基于结构化二部图学习的快速聚类方法。通过在原始数据和代表点间迭代地学习一个稀疏结构化二部图,可以直接得到聚类结果,避免了在传统方法中随机初始化会对最终聚类结果造成影响的问题。该方法复杂度很低,并且显著提高了大数据聚类的质量。

白翔 教授 10月15日14:45

简介:华中科技大学电子信息与通信学院教授,副院长,国家自然科学基金优秀青年基金,万人计划青年拔尖人才入选者,国家防伪工程技术研究中心副主任。他的主要研究领域为计算机视觉与模式识别、深度学习。他已在计算机视觉与模式识别领域一流国际期刊和会议如PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML上发表论文50篇,担任期刊Pattern Recognition, Pattern Recognition Letters, Neurocomputing, Frontier of Computer Science, 自动化学报编委, JCST客座编委。担任CVPR19, ICDAR19, AAAI19, IJCAI17-18、ICPR18、ACCV18、ICIP17等主流国际会议的领域主席/资深技术程序委员或竞赛主席,应邀给ICDAR 2017做大会特邀报告。尤其在形状的匹配与检索、相似性度量与融合、场景OCR取得了一系列重要研究成果,引起了国际同行的关注,入选2014-2017年中国高被引学者。他是视觉与学习青年学者研讨会(VALSE)指导委员,是VALSE在线活动(VALSE Webinar)主要发起人之一。

报告题目:任意形状文本检测与识别

韩军伟 教授 10月15日14:00

简介:韩军伟,西北工业大学教授,自动化学院副院长,信息融合技术教育部重点实验室副主任,陕西省科技创新团队负责人,欧盟玛丽居里国际人才引进基金获得者。入选了国家优青、教育部新世纪优秀人才、陕西省中青年科技领军人才、陕西省青年科技新星等人才计划。主要研究方向是多媒体信息处理、人工智能和生物医学图像处理。已在领域顶级期刊如:Proceedings of the IEEE,IEEE TPAMI, IJCV, NeuroImage, Cerebral Cortex等发表学术论文50余篇,在领域顶级的国际会议如:CVPR,ICCV,MICCAI,IPMI, IJCAI等发表学术论文30余篇。论文被引用5000余次,ESI高被引论文16篇,ESI热点论文11篇。获得国际会议ACM Multimedia 2010,MICCAI 2011和ICME 2016最佳学生论文奖提名。获得教育部自然科学二等奖等3个省部级科技奖励,担任国际期刊IEEE Trans. on Neural Networks and Learning Systems、IEEE Trans. on Circuits and Systems for Video Technology等7个国际期刊编委,担任领域权威国际会议如: ICPR, ACCV等的区域主席。

报告题目:脑神经媒体组学

摘要:人脑是图像/视频内容的最终判定者,随着脑科学技术的飞速发展,可以利用非侵入的磁共振功能成像手段获取大脑在观看多媒体时的反应,这种反应包含大脑的语义层理解信息。“脑神经媒体组学”是一个新的研究方向,利用机器学习理论为手段,实现大脑反应信息对多媒体视听觉特征的指导、优化和融合,达到计算机对于多媒体内容实现接近人脑认知的目的。同时,此研究也探索大脑在多媒体刺激下的工作机制。本报告将汇报“脑神经媒体组学”研究中的一些关键技术及最新进展。

杨阳 教授 10月15日14:45
简介:杨阳,电子科技大学计算机科学与工程学院教授、博导。澳大利亚昆士兰大学博士、新加坡国立大学博士后。研究领域包括多媒体检索、社交媒体分析和机器学习。在计算机领域知名期刊和会议上发表论文百余篇。目前主持国家自然基金面上项目1项、参与重点项目1项。多次任职国际SCI期刊(客座)编委。曾获ACM Multimedia 2017最佳论文奖、ACM Multimedia 2013最佳学生论文、ACM SIGIR最佳论文Honorable Mention、IEEE ICME World's FIRST 10K Best Paper Award、WISE最佳论文等学术奖项。2014年获电子科技大学校百人计划。
报告题目:跨媒体智能分析与处理

摘要:多媒体将文本、图像、语音、视频等数据形式紧密混合一体,已经成为大数据的普遍表达方式。而跨媒体理解通过对语言、视觉、和听觉的语义贯通,是实现智能行为的基础,在机器人、无人机、安防、交通、教育、互联网等领域有重大应用价值。在这里,我们将对跨媒体理解的最新科研成果,展开一系列讨论,包括跨媒体的关联性挖掘、标注、搜索等。

蒋树强 教授 10月15日14:00
简介:蒋树强,中科院计算所研究员,博士生导师,中科院智能信息处理重点实验室副主任,IEEE和CCF高级会员,国际期刊IEEE Multimedia、Multimedia Tools and Applications的Associate Editor,任ACM SIGMM中国分会副主席、CCF专委工委委员、CCF多媒体专委会常委、IEEE CASS北京分会副主席,研究方向为图像/视频等多媒体信息的分析、理解与检索技术,先后主持承担国家自然科学基金重点项目等项目10余项,共在国内外刊物和会议上发表论文150多篇,获授权专利14项,获得2008年度北京市科技新星计划支持,2012年度中国科学院卢嘉锡青年人才奖,2012年度中国计算机学会科学技术奖,2013年度中国科学院青年科学家国际合作奖,获2013年度国家自然科学基金优秀青年科学基金支持,入选2014年度中组部万人计划青年拔尖人才计划。
报告题目:融合上下文信息中的视觉场景识别技术

摘要:相比于其他多媒体形式,图像/视频等视觉媒体具有内容丰富、关联复杂、冗余性强、信息隐藏深等特点,这对各种潜在应用需求都带来了很大挑战。场景是不同物体及局部区域的组合,相对于物体图像,场景图像更为抽象,不易识别与理解。本报告将分析场景图像的特点,对场景识别的主要技术方法进行总结,分析场景图像识别中的尺度偏差问题,并重点介绍基于空间位置、模态和物体关系等上下文关联信息的场景识别技术,并对未来技术发展进行展望。

郑文皇 教授 10月15日14:45

简介:郑文皇,台湾交通大学电子工程研究所教授,人工智能与多媒体实验室主任,台湾工业技术研究院特聘研究顾问,台湾科技部吴大猷先生纪念奖(智慧计算领域)与优秀年轻学者研究计画获得者。长期致力于面向大数据的多媒体人工智能前瞻技术的研究,研究方向主要包括多媒体内容分析、社交多媒体计算、人工智能、深度学习、金融科技等。迄今在ACM/IEEE等国际顶尖学术期刊与ACM MM、IJCAI、AAAI、CVPR、ICCV等重要国际学术会议上发表论文外,长期推动国际学术合作,任IEEE Multimedia副主编、亚太信号与信息处理协会(APSIPA)杰出讲座学者、中国计算机学会高级会员与多媒体技术专委会委员、IEEE MSA专委会委员、IEEE VSPC专委会委员等。获得2018年微软亚洲研究院合作研究奖、2011-2017年台湾科技部特殊优秀人才奖励、2015-2016年百万台币奖金国际扶轮社长公益奖、2015年中国电机工程学会优秀青年电机工程师奖、2015 IEEE MMSP Top 10% Paper Award、2014年ACM台北/台湾分会李国鼎青年研究奖、2014 ACM MM Grand Challenge Award、2014年台北市社会优秀青年等荣誉。

报告题目:时尚计算与智能分析

摘要:人工智能技术已经广泛应用到日常生活中的各个领域,成为创新的主要驱动力之一,进而改变现有的产业价值链,带来许多新的商业应用与机会。人工智能正在进入时尚产业,成为新一代时尚业者竞争的新焦点,我们已经可以看到诸如结合社交大数据与深度学习的人工智能被应用在真实零售场景,让时装设计品牌率先掌握顾客需求及流行趋势,甚至未来可以取代真人造型师,成为个人的机器智能穿搭顾问。当时尚遇上人工智能,本报告将对时尚计算与智能分析相关创新应用与发展趋势,以及我们研究组近年来的相关工作进行回顾。

纪荣嵘 教授 10月15日15:50
简介:纪荣嵘,福建省“闽江学者”特聘教授,厦门大学教授、博士生导师、2014年获国家优青,2016年获国家万人计划青年拔尖。主要研究方向为计算机视觉与多媒体技术。相关工作发表于SCI源期刊论文90余篇,包括ACM汇刊与IEEE汇刊近50篇、CCF A类国际会议长文40余篇。论文的Google Scholar引用次数5000余次,SCI引用1600余次,H-因子为33,12篇论文入选ESI高被引/热点论文;近年来主持国家自然科学基金联合重点项目、军委科技委战略前沿专项,国家重点研发计划课题/子课题等;获2007年微软学者奖、2011年ACM Multimedia最佳论文奖、2012年哈工大优秀博士论文、2015年省自然科学二等奖、2016年教育部技术发明一等奖。担任多个国际期刊的副编辑,VALSE2017大会主席、ACM/IEEE高级会员。
报告题目:紧致化计算机视觉分析系统

摘要:报告主要探索视觉大数据搜索识别系统中的紧凑性问题,将覆盖纪荣嵘教授研究组近两年来在面向视觉终端应用的视觉特征紧凑表示和深度网络压缩中所做的一些工作与成果。在视觉特征紧凑表示方面,将介绍通过引入大规模无监督排序信息,学习排序敏感的哈希码,以保持原始高维特征空间中的检索信息。在深度网络压缩方面,将介绍面向特定任务(人脸和视觉场景解析)的深度网络级联压缩模型(串行低秩矩阵分解技术)与加速模型(结构化稀疏约束剪枝技术)。报告并将介绍上述研究在腾讯\滴滴\华为等视觉产品中的实际应用。

李玺 教授 10月15日16:35

简介:李玺,男,1981年生,博士,教授,博士生导师。李玺教授入选浙江省151人才工程培养第二层次,获聘浙江省特聘专家以及中国信息与电子科技发展战略研究中心专家委员会的特聘专家。同时担任中国图象图形学会理事、中国图象图形学会视觉大数据专委会常务委员、CCF计算机视觉专委会委员、浙江省计算机协会计算机视觉专委会和多媒体专委会的副主任委员。另外,申请人亦担任了多个国际著名的顶级学术会议的大会程序委员(如NIPS2017、IJCAI2017、CVPR2017等)。在2016年上海举行的中国计算机视觉研究与应用创新论坛(RACV)上做大会特邀报告,在2017年西安举行的智能世界国际会议上(ICSW)做大会特邀报告,也在2017年中国多媒体大会(ChinaMM)的分论坛做特邀报告,在2017年中国数据科学国际会议(ICDS)人工智能分论坛上做特邀报告。李玺教授的研究方向集中在计算机视觉和机器学习,其在国际权威期刊和国际顶级学术会议发表诸如TPAMI、IJCV、CVPR等文章110多篇,Google Scholar引用近2900多次,拥有若干ESI高被引论文,并担任神经计算领域知名国际刊物Neurocomputing和Neural Processing Letters的Associate Editor,同时担任国际模式识别大会ICPR 2018的Computer Vision Track的Area Chair。李玺教授获得两项最佳国际会议论文奖(包括ACCV 2010和DICTA 2012),以及一项ICIP 2015 Top 10% 会议论文奖,一项ACML 2017最佳学生论文奖。另外分别获得两项中国北京市自然科学技术奖(包括一等奖和二等奖),以及一项中国专利优秀奖。

报告题目:人工智能驱动的视觉特征计算、学习及其应用

摘要:互联网和物联网时代催生了海量视频大数据,从这些海量视频数据中有效提取知识迫切需要各种人工智能的技术和手段。因此,如何进行人工智能驱动的视觉计算已经成为当今知识经济时代亟待解决的核心技术问题。本报告主要围绕数据驱动的人工智能学习方法,进行大规模图像/视频数据的视觉特征学习,从目标视觉感知特性、视觉特征表达、深度学习器构建机制、高层语义理解等多维度视角进行了深入剖析,并引入了大规模视觉特征学习所涉及的主要研究问题和技术方法。然后系统地回顾了视觉特征表达和学习领域的不同发展阶段,介绍了近年来我们利用视觉特征学习进行视觉语义分析和理解所做的一系列代表性的研究工作及其实际应用。报告的最后将和大家一起探讨一下涉及视觉特征学习所面临的一些开放性问题和难题。

张史梁 研究员 10月15日15:50
简介:张史梁,北京大学信息科学技术学院数字媒体所研究员,博士生导师。研究方向为海量多媒体信息检索与计算机视觉,专注于行人重识别、物体细粒度识别、场景理解等方面的研究。以第一和第二作者发表国际期刊及会议论文50余篇,包括权威期刊IEEE T-PAMI、T-IP、T-MM、T-CSVT、Elsevier Pattern Recognition,以及CCF推荐A类会议ACM Multimedia长文、ICCV、CVPR等。获2016年教育部科技发明一等奖,2013年CCF优秀博士学位论文、2013年中科院优秀博士学位论文、2011年IEEE MMSP会议论文奖、2010年微软学者奖等。研究成果还得到了工业界的认可与应用,获2014年NEC美国实验室突出技术奖、2018年Nvidia Pioneering Research Award。
报告题目:海量数据中的行人重识别

摘要:随着越来越多的大型摄像头网络被部署到各个公共场所中,人们越来越关注人工智能在监控视频技术领域中的研究与应用。而行人图像再识别正是监控视频技术领域的核心课题之一。监控视频中的行人图像存在数据海量、光照变化强烈、分辨率较低、姿态差异明显、易被遮挡、数据海量等问题,使得行人图像再识别研究面临着巨大的挑战。为应对这些挑战,我们在行人图像语义属性特征提取、高判别力融合特征构建、高效深度模型、数据迁移、海量行人图像离线索引等方面开展了研究。本次报告将介绍我们在近期取得的最新进展。此外,还将讨论行人重识别所面临的最新问题与挑战,以及我们近期所做的努力与尝试。

周文罡 教授 10月15日16:35
简介:周文罡,中国科学技术大学信息学院副教授、博士生导师,国家“优秀青年基金”获得者。2006年本科毕业于武汉大学,2011年博士毕业于中国科学技术大学,2011~2013年在美国德州大学圣安东尼奥分校计算机系任博士后研究员,2013年加入中国科学技术大学,任职至今。主要研究方向为多媒体信息检索和计算机视觉,发表IEEE TPAMI、IEEE TIP、TMM等IEEE汇刊论文和CVPR、ACM MM等CCF A类国际会议论文共40余篇,获国际会议ICIMCS 2012最佳论文奖。Google学术引用2400余次,SCI他引600余次,ESI高被引论文两篇。曾获中科院百篇优博奖,入选中科院青促会会员、中国科协"青年人才托举工程"。
报告题目:Image Retrieval with Deep Learning

摘要:Recent years has witnessed the great success of deep learning in a variety of vision tasks. In most cases, deep learning is conducted in a supervised way. As for image search, since the category number of potential objects is difficult to enumerate and the image database is large, it is infeasible to collect sufficient annotated training images as supervision for deep learning. As a result, most works on image search simply leverage the activations from pre-trained deep learning model, or just focus on some specific fine-grained tasks, such as landmark retrieval. To this end, we explore deep learning in a pseudo-supervised paradigm and orient it for image retrieval. We approach it from different perspectives and propose three algorithms. Further, to automatically evaluate the retrieval result quality, we propose a deep learning based quality assessment method. Extensive experiments demonstrate the effectiveness and potential of pseudo-supervised deep learning in retrieval task.

宋井宽 教授 10月15日15:50
简介:宋井宽,电子科技大学教授,博士生导师。2014年博士毕业于澳大利亚昆士兰大学,2014-2016年在特伦托大学担任博士后,2016-2017在哥伦比亚大学担任博士后研究员。主要研究方向为多媒体检索、图像视频分割以及多媒体数据的理解。在多媒体、计算机视觉、人工智能等领域的重要会议和期刊发表论文近100篇,谷歌学术引用2100余次, H-index = 21。2016年获模式识别国际会议ICPR最佳论文奖,2017获信息检索顶级会议SIGIR最佳论文提名奖。担任国际SCI期刊(WWW Journal、TMM)的客座编委,担任IEEE TPAMI, IEEE TIP, IEEE TMM, IJCV等多个顶级期刊的特邀评审和多个国际顶级会议(CVPR’18, MM'18, IJCAI'18)的程序委员。
报告题目:Generative Adversarial Networks with its applications

摘要:生成式对抗网络GAN (Generative adversarial networks) 是Goodfellow等在2014年提出的一种生成式模型. GAN在结构上受博弈论中的二人零和博弈 (即二人的利益之和为零, 一方的所得正是另一方的所失) 的启发, 系统由一个生成器和一个判别器构成.生成器捕捉真实数据样本的潜在分布, 并生成新的数据样本; 判别器是一个二分类器, 判别输入是真实数据还是生成的样本.生成器和判别器均可以采用目前研究火热的深度神经网络. GAN的优化过程是一个极小极大博弈 (Minimax game) 问题, 优化目标是达到纳什均衡, 使生成器估测到数据样本的分布。在当前的人工智能热潮下, GAN的提出满足了许多领域的研究和应用需求, 同时为这些领域注入了新的发展动力。GAN已经成为人工智能学界一个热门的研究方向, 著名学者LeCun甚至将其称为“过去十年间机器学习领域最让人激动的点子”。目前, 图像和视觉领域是对GAN研究和应用最广泛的一个领域, 已经可以生成数字、人脸等物体对象, 构成各种逼真的室内外场景, 从分割图像恢复原图像, 给黑白图像上色, 从物体轮廓恢复物体图像, 从低分辨率图像生成高分辨率图像等。本报告从利用GAN进行图像检索讲起,还介绍了基于GAN的Face Aging和基于GAN的text-to-image生成。为基于GAN网络的研究提出了一些启发性的应用和算法。

袁晓彤 教授 10月15日16:35
简介:袁晓彤,现任南京信息工程大学教授,博导,江苏省大数据分析技术重点实验室副主任。主要从事机器学习和计算机视觉方面的研究和教学,研究方向包括稀疏学习、概率图模型、分布式优化、图像识别等。在国内外学术期刊(包括JMLR, IEEE-TPAMI, IEEE-TIT等)和会议(包括NIPS, ICML, ICCV, CVPR等)上发表论文70余篇。曾获得国家自然科学基金优秀青年基金资助,入选江苏省双创人才;获得过IEEE Transactions on Multimedia最佳论文提名,ImageNet国际竞赛图像检测任务第1名等奖励。
报告题目:面向深度学习的稀疏建模与优化

摘要:以卷积神经网络为代表的深度学习模型往往具有超大的参数规模,在提高学习性能的同时也为模型的稳定性、可解释性和可部署性带来巨大的挑战。在这类高维非凸模型中引入稀疏约束学习机制是解决这类挑战的有效途径之一。同时如何利用分布式计算平台进行高效深度网络压缩训练也是重要问题之一。针对这一系列问题,本报告主要探讨深度神经网络中的结构化稀疏学习及大规模优化方法。将重点介绍一类基于梯度阈值追踪的深度神经网络动态裁剪算法和一类基于近似牛顿估计的分布式神经网络裁剪方法。研究结果表明所提出的稀疏训练方法可以自适应地显著减少卷积神经网络的冗余度,同时保持稠密模型的泛化能力。

江健民 教授 10月16日8:15
简介:江健民,于2014年辞掉英国 Surrey University的正教授职务全职加盟深圳大学井创立未来媒体技术与计算研究所,担任研究所所长。他于1994年获英国诺丁汉大学博士学位,同年任职于英国拉夫堡大学计算机系讲师。1997年岀任英国格拉摩根大学计箅机学院正教授,是最早成为英国大学教授的大陆学者之一。回国前曾任英国 Bradford University数字媒体 Chair Professor和该校数字媒体与系统硏究所所长,及英国Surrey University计箅机系媒体计算方向的 Chair Professor。主要从事跨学科领域内数字媒体计算与智能机器学习的科学研究。具体包括计算机视频内容语义分析和理解,人类记忆功能的计算机辅助设计,数字图像处理和理论,机器学习在数字媒体分析中的应用,以及医学图像分析和智能交通大数据的知识挖掘等。
报告题目:未来媒体技术的研究对智慧城市发展的影响和作用

Prof. Mark Liao 10月16日9:00

简介:Mark Liao received his Ph.D degree in electrical engineering from Northwestern University in 1990. In July 1991, he joined the Institute of Information Science, Academia Sinica, Taiwan and currently, is a Distinguished Research Fellow and Director. He has worked in the fields of multimedia signal processing, computer vision, pattern recognition, multimedia protection, and artificial intelligence for more than 25 years. During 2009-2011, he was the Division Chair of the computer science and information engineering division II, National Science Council of Taiwan. He is jointly appointed as an Honorary Chair Professor of National Chiao-Tung University. During 2009-2012, he was jointly appointed as the Multimedia Information Chair Professor of National Chung Hsing University. Since August 2010, he has been appointed as an Adjunct Chair Professor of Chung Yuan Christian University. From August 2014 to July 2016, he was appointed as an Honorary Chair Professor of National Sun Yat-sen University. He received the Young Investigators' Award from Academia Sinica in 1998; the Distinguished Research Award from the National Science Council in 2003, 2010 and 2013; the Academia Sinica Investigator Award in 2010; and the TECO Award from the TECO Foundation in 2016. His professional activities include: Co-Chair, 2004 International Conference on Multimedia and Exposition (ICME); Technical Co-chair, 2007 ICME; President, Image Processing and Pattern Recognition Society of Taiwan (2006-08); Editorial Board Member, ACM Computing Surveys (2018 – present), IEEE Signal Processing Magazine (2010-13); Associate Editor, IEEE Transactions on Image Processing (2009-13), IEEE Transactions on Information Forensics and Security (2009-12) and IEEE Transactions on Multimedia (1998-2001). He has been a Fellow of the IEEE since 2013.

报告题目:Intelligent Vision-based Surveillance Systems

摘要:In this talk I will introduce four research issues which are all related to intelligent vision-based surveillance. They are: (1) cocktail watermarking technique for protecting surveillance videos; (2) blurred license plate image recognition;(3) people counting for surveillance;and (4) video-based person re-identification.

田奇 教授 10月16日9:45

简介:Qi Tian is now the Chief Scientist in Computer Vision at Huawei. He is on faculty lave and a Full Professor in the Department of Computer Science, the University of Texas at San Antonio (UTSA). He was a tenured Associate Professor from 2008-2012 and a tenure-track Assistant Professor from 2002-2008. During 2008-2009, he took one-year Faculty Leave at Microsoft Research Asia (MSRA) as Lead Researcher in the Media Computing Group. Dr. Tian received his Ph.D. in ECE from University of Illinois at Urbana-Champaign (UIUC) in 2002 and received his B.E. in Electronic Engineering from Tsinghua University in 1992 and M.S. in ECE from Drexel University in 1996, respectively. Dr. Tian’s research interests include multimedia information retrieval, computer vision, machine learning and pattern recognition and published over 440 refereed journal and conference papers (including 108 IEEE/ACM Transactions papers and 90 CCF Category A conference papers). His Google Citation is 11800+ with h-index 58.

报告题目:Person Re-Identification: Challenges and Recent Advances

摘要:As a research topic attracting more and more interests in both academia and industry, person Re-Identification (ReID) targets to identify the re-appearing persons from a large set of videos. It is potential to open great opportunities to address the challenging data storage problems, offering an unprecedented possibility for intelligent video processing and analysis, as well as exploring the promising applications on public security like cross camera pedestrian searching, tracking, and event detection.

林宙辰 教授 10月16日10:50
简介:Zhouchen Lin received the Ph.D. degree in applied mathematics from Peking University in 2000. He is currently a Professor at Key Laboratory of Machine Perception (MOE), School of Electronics Engineering and Computer Science, Peking University. His research interests include computer vision, image processing, machine learning, pattern recognition, and numerical optimization. He is an area chair of CVPR 2014/2016/2019, ICCV 2015, NIPS 2015/2018 and AAAI 2019, and a senior program committee member of AAAI 2016/2017/2018 and IJCAI 2016/2018. He is an associate editor of IEEE Trans. Pattern Analysis and Machine Int.
报告题目:Learning Partial Differential Equations for Computer Vision and Image Processing

摘要:Many computer vision and image processing problems can be posed as solving partial differential equations (PDEs). However, designing PDE system usually requires high mathematical skills and good insight into the problems. In this paper, we consider designing PDEs for various problems arising in computer vision and image processing in a lazy manner: learning PDEs from training data via optimal control approach. We first propose a general intelligent PDE system which holds the basic translational and rotational invariance rule for most vision problems. By introducing a PDE-constrained optimal control framework, it is possible to use the training data resulting from multiple ways (ground truth, results from other methods, and manual results from humans) to learn PDEs for different computer vision tasks. The proposed optimal control based training framework aims at learning a PDE-based regressor to approximate the unknown (and usually nonlinear) mapping of different vision tasks. The experimental results show that the learnt PDEs can solve different vision problems reasonably well. In particular, we can obtain PDEs not only for problems that traditional PDEs work well but also for problems that PDE-based methods have never been tried before, due to the difficulty in describing those problems in a mathematical way.

吕建成 教授 10月16日11:35
简介:吕建成,四川大学计算机学院(软件学院)院长、教授、博士生导师。国家杰出青年基金获得者,教育部“新世纪优秀人才”支持计划获得者,中国计算机学会青工委委员,中国计算机学会专工委委员,中国计算机学会模式识别与人工智能专委会委员,中国人工智能学会机器学习专委会委员,四川省“学术和技术带头人”,四川省“有突出贡献的优秀专家”。研究方向:神经网络、机器学习与大数据分析。 师从IEEE Fellow、章毅教授研究神经网络十余年。在IEEE TNN, IEEE TFS, IEEE TSMC, IEEE TNNLS, IEEE TSP等期刊和AAAI, IJCAI, IJCNN等重要国际会议发表学术论文80余篇。出版英文专著《Subspace Learning of Neural Networks》。2012年获得教育部自然科学一等奖,2011年获得四川省科技进步一等奖,2007年获CCF优秀博士论文奖。担任IEEE Trans. Neural Networks and Learning Systems编委(Associate Editor)。
报告题目:Understand Neural Network Model The Structure and Representation of Data

摘要:为了更好的研究空间中数据的本质特征,我们通常引入一些数学结构。空间中数据的结构特征体现了数据的本质特征。借助于空间中数据的结构,神经网络方法实现了数据在空间中各种本质特征的表达。根据不同的目标(监督学习),神经网络可以获得使目标最大化的数据的本质表达;也可以根据不同的潜在机制(无监督学习),神经网络可以获得满足该机制的本质表达。该报告将介绍数据在空间分布的结构,神经网络的特征表达,以及我们的部分相关工作。

邬霞 教授 10月16日14:00
简介:邬霞,博士,北京师范大学信息科学与技术学院教授,主要研究方向为人工智能算法面向神经影像数据中的应用。国家自然科学基金优秀青年基金项目获得者,入选教育部新世纪优秀人才支持计划。主持并参与多项国家自然科学基金、科技部等重大项目。在包括Human Brain Mapping、Pattern Recognition等期刊、会议上发表论文51篇,累计正面他引超过300次。
报告题目:面向多媒体的情感识别与分类研究

摘要:人们的日常生活中充斥着大量的如图片、视频等多媒体信息,而对这些多媒体信息对人类的情感有着怎样影响?这就需要我们运用信息科学手段,借助于脑电等认知神经学工具,对面向多媒体信息的人类情感变化过程进行有效模拟、建模和识别理解,从而实现对情绪反馈的有效识别,进而实现对抑郁症等情感障碍疾病的有效诊断。

杨易 教授 10月16日14:45
简介:杨易博士目前是澳大利亚悉尼科技大学教授。他于2010年博士毕业于浙江大学,在2011至2013年间在卡耐基梅隆大学从事博士后研究工作,2013年加入昆士兰大学任DECRA 研究员,2015年加入悉尼科技大学任教至今。他长期从事多媒体和计算机视觉研究,在跨媒体分析与检索、视频事件检测、大规模监控视频分析、运动跟踪等方面取得了一系列创新性成果,在相关领域的权威国际期刊和顶级学术会议发表论文100余篇。
报告题目:Weakly Supervised Detection in Videos and Image

摘要:Deep convolutional neural networks (CNN) achieve superior performance on many computer vision applications, e.g., detection, segmentation, and translation. Annotating a large number of images for training CNNs is tedious which costs lots of resources, especially for complex tasks, e.g., object detection and landmark detections. For example, to annotation an image for detection, one provides a bounding box for each object in images. I will talk about how to minimize the annotation cost for detection. I will first talk about how to design supervision signal, which does not require human annotating or only needs the minimum human annotations. Secondly, exemplified for object detection and facial landmark detection, I will talk how to leverage such supervision to train CNN models for different computer vision applications.

王鹏 教授 10月16日14:00
简介:王鹏,2000-2011年在北京航空航天大学自动化科学与电气工程学院学习并获得学士和博士学位,博士毕业后在澳大利亚阿德莱德大学计算机学院从事科研工作,同年加入西北工业大学计算机学院担任教授。主要从事计算机视觉、机器学习与人工智能等领域的研究工作。在TPAMI、IJCV、CVPR、ICCV 、IJCAI等期刊和会议发表论文若干。研究兴趣包括图像与语言交互、目标检测与识别等。
报告题目:Bridging image, language and knowledge: explorations into vision and language interactive tasks

摘要:Language is one of the most important means that human use to communicate and encode knowledge. In artificial intelligence, natural language processing also plays a fundamental role. As a key measure of AI, Turing test is too based on question answering.Recently, vision and language interactive problems has given rise to increasing attentions in the CV and NLP communities, key tasks including image captioning, visual question answering and visual dialog. In this report, I will introduce my work on these problems, in particular the efforts that try to incorporate symbolic semantic information into vision and language interactive tasks.

马思伟 教授 10月16日14:45
简介:马思伟,北京大学信息科学技术学院教授, 2005年博士毕业于中国科学院计算技术研究所。2005年8月至2007年8月在美国南加州大学进行博士后研究,之后到北大工作至今。主要研究方向为视频编码及处理,已发表SCI论文40余篇,已获授权发明专利40多项,曾获国家自然科学基金委优青项目、青年拔尖人才计划项目支持。担任IEEE Transactions on Circuits and System for Video Technology(TCSVT)、Journal of Visual Communication and Representation(JVCIR)期刊编委(AE)、中国图象图形学学会理事、AVS视频组组长等。自2002年起,陆续参与组织AVS1、AVS+、AVS2一系列国家标准的制定,曾获国家技术发明奖二等奖、国家科学技术进步奖二等奖等奖励。
报告题目:智能视频编码

摘要:传统视频编码主要面向广播影视应用,编码技术主要关注在视频的压缩效率上,而新兴视频应用如视频监控、无人驾驶等强调对于视频内容的智能分析与理解,需要更智能的视觉内容表示形式,这些应用需求正在推动视频编码从基于像素的编码到基于视觉特征的编码形式演变。本报告主要从功能和结构两个方面介绍智能视频编码方向的最新技术进展,包括视觉特征的编码以及基于深度学习的视频编码技术等内容。

方玉明 教授 10月16日14:00
简介:方玉明,江西财经大学教授、博导,江西省数字媒体重点实验室主任,2018年国家自然科学基金‘优秀青年基金’项目获得者。2013年毕业于新加坡南洋理工大学,获计算机工程专业博士学位。主持包括国家自然科学基金优青项目、面上项目、霍英东教育基金会高等院校青年教师基金等课题10余项;在国内外主流学术期刊及会议发表论文100余篇,其中IEEE汇刊或JCR二区论文40余篇,Google学术引用近2000次,ESI高引论文3篇;申请发明专利及软件著作权10余项,担任多个SCI期刊编委,入选江西省百千万人才工程人选、江西省杰出青年基金获得者,获江西青年五四奖章。
报告题目:图像质量评价:理论、方法与应用

摘要:近年来,随着多媒体处理技术的快速发展,图像质量评价研究越来越受到大家的关注,它能广泛运用于多媒体处理技术/系统性能评价和优化中。本报告首先介绍图像质量评价概念、分类及基本理论方法,然后回顾了过去十年来的相关进展,进一步,通过介绍我们小组在该领域的一些相关工作,来说明图像质量评价模型的构建方法和应用。最后,对本研究组的一些其他相关研究情况进行介绍。

高跃 教授 10月15日15:50
简介:高跃,清华大学副教授、博士生导师。2012年毕业于清华大学获得博士学位。2012年至2016年分别于新加坡国立大学和北卡罗来纳大学教堂山分校从事计算机及医学领域研究工作。近年来作为项目负责人承担国家重点研发计划重点专项、自然科学基金联合基金重点项目等多项课题,主要研究领域为计算机视觉、机器学习及医学图像处理,在IEEE TIP、TCSVT、TMM、TNNLS、HBM及MICCAI、CVPR、AAAI、IJCAI等国际期刊及会议发表论文100余篇,论文引用4000余次,由Elsevier出版视觉计算英文专著两部。担任Journal of Visual Communication and Image Representation、Neurocomputing等多个国际期刊编委。
报告题目:基于分组深度网络的立体对象识别

摘要:报告主要介绍基于分组深度网络的立体视觉对象识别。立体视觉信息是客观世界的基本表征,然而通过光学系统成像后会降维成二维图像,使得在观察客观世界时,人们无论是通过眼睛还是相机,都会由于上述维度间的失配导致对客观世界的认知存在偏差。近些年来,基于多视图对客观世界进行刻画已经成为计算机视觉、多媒体等领域的通用手段。需要特别指出的是,视觉信息的多视数据表示存在着多视数据耦合与冗余之间的矛盾,具有数据表示的局限性。针对这一难点,报告中介绍了基于多视数据特征提取及权重优化的深度学习一体化框架,实现了视觉信息的多视紧致可辨识刻画,并在立体视觉对象的识别中取得了良好效果。

注:讲者信息顺序按照报告时间排序,同一session的讲者按照姓氏的首字母排序。

组织委员会

  • 大会主席:田奇(华为计算机视觉首席科学家) 王英龙(齐鲁工大(省科学院)党委书记)
  • 程序主席:洪日昌(合肥工业大学) 聂礼强(山东大学/山东省科学院人工智能研究院) 杨美红(山东省计算中心)
  • 本地主席:程志勇(山东省科学院人工智能研究院) 聂秀山(山东财经大学) 许信顺(山东大学) 朱磊(山东师范大学)
  • 宣传主席:崔超然(山东财经大学) 舒明雷(山东省计算中心) 宋雪萌(山东大学)
  • 财务主席:甘甜(山东大学) 蹇木伟(山东财经大学)


参会说明