ECCV 2018 德国慕尼黑召开,来份 tutorial 预热

AI 科技评论消息,计算机视觉欧洲大会(European Conference on Computer Vision,ECCV)于 9 月 8 -14 日在德国慕尼黑召开,今天已进入会议第二日。会议前两日为 workshop 和 tutorial 预热环节,主会将于当地时间 9 月 10 日召开。

今年 ECCV 共计 11 个 tutorial,议题涵盖当前热门的对抗性机器学习、面部追踪、行人重识别、视频识别等多个方向。接下来,AI 科技评论将会对这些议题进行具体介绍,关注 ECCV 的小伙伴们,快快 mark 吧!

Tutorial 1 对抗性机器学习

包括深度神经网络在内的机器学习和数据驱动的人工智能技术目前已经有诸多应用,涵盖了从计算机视觉到网络安全等诸多领域。在垃圾邮件和恶意软件检测在内的应用中,学习算法必须应对手段高超、适应性强的攻击者,因为攻击者可以操纵数据故意破坏学习过程。

由于最初设计这些算法的时候并没有考虑到这种攻击情况,一旦面临精心设计、复杂的攻击时,这些算法毫无招架之力,攻击形式包括测试时的逃逸攻击(evasion attack)和训练时的药饵攻击(poisoning attacks,也称对抗性样本)。对抗这些威胁以及在对抗性环境下学习安全的分类器和人工智能系统已经成为机器学习和人工智能安全领域一个新兴的研究主题,被称为对抗性机器学习。

这次 tutorial 将涵盖如下四点内容:

对抗性机器学习的基础知识;

用于对抗性任务的机器学习算法的设计周期;

最新提出的评估学习算法在遭受攻击时性能的技术,能够评估算法漏洞,并提升面对攻击时鲁棒性的防御策略;

一些对抗性机器学习算法在目标识别、生物特征识别、垃圾邮件和恶意软件检测中的应用。

PDF地址:

http://www.diee.unica.it/~biggio/slides/Roli-Biggio-ECCV18-tutorial.pdf

Tutorial 2 对于人、物体和环境的超快三维感知、重建以及理解

虚拟现实和增强现实的兴起让人们希望三维场景捕获、重建和理解系统的鲁棒性更强。设计这样的系统需要开发高质量的传感器和能够利用新技术和现有技术的高效算法。基于这一考虑,我们设计了具有两个特征的深度传感器,大大简化了融合不完整的传感器数据的问题。

首先,我们使用一个超快的深度数据流,显著减少了帧到帧之间的运动。其次,我们通过使多个传感器能够容易地组合(不干扰的情况下)从而消除遮挡。最终,我们开发了一系列高效的算法,用于场景重建、目标跟踪和场景理解,而这些算法都是为了配合这项技术而设计的。

在这一 tutorial 中,我们将带领读者从头到尾构建这样一个程序栈,最开始将建立一个用于特别强调高速三维场景捕获系统的混合现实应用的传感器。

Tutorial 3 将微软 HoloLens 全息眼镜用作计算机视觉研究工具

微软 HoloLens 是世界上第一台独立的全息电脑,它同时也是一种强大的计算机视觉研究设备。应用程序代码可以访问音频、视频流和表面网格,所有这些数据都存储在 HoloLens 高度精确的头部跟踪技术维护的世界坐标空间中。

这一 tutorial 将深入介绍 HoloLens 的新「研究模式」功能,展示如何访问原始头跟踪和深度传感器数据流,,此外,还将展示 Azure 项目的 Kinect 中的飞行深度感知技术的最新进展。

Tutorial 4 面部追踪及其应用

这一 tutorial 的内容与单目面部追踪技术相关,并讨论了这一技术可能的应用场景。具体而言,涵盖以下主题:

输入方式(RGB 和 RGB-D 传感器);

成像模型(摄像机模型和光传输模型);

统计面部先验和融合变形;

先进的人脸模型和参数绑定;

基于优化的面部重建;

面部重建的应用;

视频编辑、面部重建、视频配音、面部投影映射;

用于面部重建的深度学习技术;

开放性的挑战;

社会影响。

相关研究包括:

Zollhöfer 等人的「单眼三维人脸重建、跟踪及其应用的研究进展」;

Sylianou 等人的「基于图像的三维面部重建综述」;

Klehm 等人最近发表的关于捕获面部外貌特征的报告,试图通过 CG 技术重新绘制人脸;

Bouaziz 等人的面部跟踪与非刚性表面配准问题,其目标是将特定的表面与图像或三维扫描结果对齐;

Orvalho 等人讨论面部表情绑定的综述和 Lewis 等人关于给予融合变形的面部动画的综述。

Tutorial 5 行人重识别的表征学习

行人重识别任务的目的是在一个庞大的行人图像数据库中找到一个待查的人,这样我们就可以通过摄像头定位感兴趣的人。该课题的研究和应用具有重要的意义,近年来迅速受到了学术界和产业界广泛的关注。传统意义上说,行人重识别的特点是视觉描述符和相似性度量的有效组合。目前,前沿研究已经进展到深入学习到既具有判别能力又高效的不变特征嵌入。

这一 tutorial 还介绍了许多研究任务,例如基于视频的、基于语言的、基于检测信息的重识别工作,将指出当前的研究进展,讨论用于行人重识别任务的表征学习的最先进的方法,讨论未来可能的研究方向。

数据集:

http://robustsystems.coe.neu.edu/sites/robustsystems.coe.neu.edu/files/systems/projectpages/reiddataset.html

代码:

https://wangzwhu.github.io/home/re_id_resources.html

Tutorial 6 训练深度神经网络的归一化方法:理论和实践

特征、权重(kernel)和梯度归一化方法已成为深度神经网络(DNN)的重要组成部分。然而,我们对这些方法的理论基础和数学原理仍然不很清楚。此外,在实际的计算机视觉任务中使用各种大规模深度神经网络(如卷积神经网络(CNN)和小批量循环神经网络(RNN))等理论是一个挑战。

为此,这一 tutorial 将首先回顾最近的工作,为不同的输入-输出通道中应用的不同归一化方法的几何和统计特性提供数学证明。本 tutorial 提出的归一化方法的理论分析利用了数学工具,可以指导研究者开发新的归一化方法,帮助更好地理解归一化方法的理论基础。此外,在重要的视觉应用环境中,将考虑使用批量归一化、块正交权值、小批量卷积神经网络和循环神经网络的梯度归一化等各种特殊归一化方法。

PDF地址:

https://eccv2018.org/wp-content/uploads/2018/08/v2.pdf

Tutorial 7 Functional Map:学习和计算的对应关系的灵活表示

这一 tutorial 将介绍基于 functional map 表示的形状之间的学习、计算和处理相似情况的技术,广义上可以理解为领域或 signal geometry、接近或连接(例如图像、点云、网格或图形)。这一 tutorial 将提供该框架在计算机视觉和机器学习问题中的数学背景、计算方法和各种应用。

PDF 地址:

https://drive.google.com/file/d/1lADZt9WQEJV0kCf6BJcLZqbg_7PtmNUB/view

https://drive.google.com/open?id=1DomCVGjwzE163lRW4jXz2v0RAGPOiMyn

https://drive.google.com/open?id=1bLYAkFjaTQ03uJXii0Ntvn8pISYEQL1f

Tutorial 8 视觉定位:基于特征的方法 vs 基于学习的方法

该 tutorial 主要会讲如下内容:

基于特征的定位研究现状

涵盖基础知识:图像局部特征、相机姿态估计、描述符匹配;高效(移动)定位;可伸缩的基于特征的定位。

基于学习的定位研究现状

涵盖基础知识:随机森林,卷积神经网络;学习相机姿态回归;场景坐标回归。

当前的热点话题和开放性问题

涵盖基于特征和基于学习的方法的失败案例;长期定位:对更高层次场景的理解;基于学习方法的开放问题。

PDF地址:

https://drive.google.com/open?id=1s6Y8FM3K654z0ZslDdjYkJUz-uH_0523

https://drive.google.com/open?id=1Kuk_H2eYW1hc7b16jiOipUdigjmM6GV8

https://drive.google.com/open?id=1Oxv6k_gGaom9vFOyg-7b3Klo8Emu8_Hp

https://drive.google.com/open?id=1VHn0W4PqzO1xRd56O2zhgNq86W6v6hfU

Tutorial 9 在 TRECVID 对比基准实验中的视频识别和检索

这一 tutorial 将重点回顾 TREC 视频检索评估(TRECVID)的历史,讨论一些 TRECVID 任务,并强调参与者的方法,总结教训。下面是具体内容:

第 1 讲:TRECVID 简介

讨论 TRECVID 的历史,包括 TRECVID 的目标、自 2001 年以来支持的不同任务和数据集,该项目对研究社区的影响,可用的资源和未来的发展方向。

第 2 讲:视频转文本(VTT)

涵盖 TRECVID 视频转文本的操作,包括使用的数据,参与者采用的方法,学到的经验教训和评价视频标题生成的独特方式。

第 3 讲:Ad-Hoc 视频搜索(AVS)

相关主题有:大型概念库的构建,通过自然语言处理技术从一个ad-hoc 查询中选择搜索关键字,利用搜索关键字选择概念分类器。

第4 讲:活动识别(MED/SED)

重点介绍在多媒体事件检测(MED)和监督事件检测(SED)的语境下,对活动的时空检测的经验教训,活动例如「做木工」、「打开树干」、「在没有车的情况下赢得比赛」。

第5 讲:实例搜索(INS)

将对实例搜索任务进行概述,接着给出标准的处理流程,包括使用视觉词袋技术生成短列表,处理几何信息和语境。

Tutorial 10 通过步态和面部分析实现的远距离人体识别

主要会讲到如下内容:

1. 动机、挑战、可用的步态和人脸数据集

2. 基于步态和人脸的人体识别系统的全面综述

传统的基于步态和人脸特征的远距离人体识别方法:图像表示;特征降维;分类

先进的基于步态和人脸特征的远距离人体识别的深度学习方法:步态和人脸识别的网络架构设计;输入特性、输入分辨率、时序信息、数据增强等对性能的影响因素;在共同的对比基准上的最先进的步态和面部识别结果。

Tutorial 11 实例级视觉识别

该 tutorial 涵盖了视觉识别研究的前沿课题,介绍了图像分类、目标检测、实例分割、语义分割、全景分割和密集人体姿态估计的方法和原理。

议程如下:

学习视觉识别的深层表征

泛化 R-CNN 对象检测框架

全景分割:统一语义和实例分割

深入分析用于视频识别的卷积神经网络

基于自然数据集学习稠密对应

注:各大 tutorial 的 PDF 持续更新中,具体信息可以参见:

https://eccv2018.org/program/workshops_tutorials/

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180909A1JFKC00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券