AILOB青年技术专家平台联盟第四次分享会圆满召开

撰稿:Amusi & Wu Chen 修改补充:H 同学 会议时间:2018年6月24日(周日)13:00 Note:因为涉及保密条款,故文中大多数成员以简称来命名

声明:“魔都AI圣战者联盟” 正式更名为 AILOB青年技术专家平台联盟

AILOB青年技术专家平台联盟 是由上海的AI行业从业者发起的民间组织。目前联盟主要成员为从事AI行业cv或nlp方向的算法工程师或主管、总监,多数为毕业于国内985高校或海外知名高校的硕博。

联盟宗旨:

1,团结所有在上海的AI从业者,举办高质量的人工智能相关的分享会和论坛,促进人工智能相关学术交流和工程实战交流。

2,促进成员交流行业职场机会和其他合作机会。

3,推动中国人工智能科学技术的理论研究、技术、应用和产业的繁荣与发展。

AILOB青年技术专家平台联盟第四次分享会 于2018年6月24日(周日)13:00顺利召开。感谢大家的积极参与和踊跃发言。会议期间,大家认真聆听了 X同学和L同学带给给大家带来的专题讲座,并且每个人都分享了自己的经历与研究方向。

本次参会成员介绍(排名不分先后)

1.H同学(国内某人工智能科技公司算法工程师,浙江大学博士)

2.M同学(国内某人工智能科技公司算法总监,法国某大学硕士)

3.R同学(国内某P2P金融公司算法专家,中科院技物所博士)

4.F同学(国内某纳斯达克上市互联网公司算法主管,中科院硕士)

5.Z同学(国内某汽车集团公司算法工程师,清华大学博士)

6.L同学(国内某互联网公司高级算法工程师,同济大学博士)

7.X同学(国际某汽车零部件公司,自动驾驶工程师,日本早稻田大学硕士)

8.覃秉丰(AI教育讲师,上海大学)

9.C同学(国内某医疗科技公司医学图像识别工程师,长春理工大学硕士)

10.H同学(国外某知名科技公司算法工程师,斯坦福大学)

11.Z同学(国内某互联网公司工程师)

12.C同学(国内某互联网公司算法工程师)

13.C同学(国内某安防公司大数据算法,武汉大学硕士)

14.W同学(生成对抗网络方向,南京邮电大学硕士在读)

15.C同学(计算机视觉方向,上海大学硕士在读)

下面就对AILOB青年技术专家平台联盟第四次分享会 做一次简单的总结。

1《百度Apollo系统方案和算法实现》专题分享

主讲人:X同学(国际某汽车零部件公司,自动驾驶工程师,日本早稻田大学硕士)

主讲内容:Apollo1.0、Apollo1.5和Apollo2.5技术演进

1.1 Apollo 1.0

1.1.1综述

Apollo是一个面向自动驾驶合作伙伴的开放式软件平台。Apollo 1.0被称为自动GPS航点跟随。

工作环境

- 它适用于封闭场地,如试车道或停车场。

工作模式

- 首先,在人力驾驶模式下工作。然后是自动模式。

- 在自动模式下,它可以准确地重放人类驾驶的轨迹。

- 自动模式的速度由已经行驶的人类驾驶员确定。

限制

- 无法近距离感知障碍物。

- 不能在公共道路上行驶。

- 无法在没有GPS信号的区域驾驶。

1.1.2 硬件和软件

主车

- 林肯MKZ

硬件

- IPC(Neousys Nuvo-5095GC)

- GPS(NovAtelSPAN®ProPak6™)

- IMU(NovAtel IMU-IGM-A1)

- GPS天线

- GPS接收器

- CAN卡(ESD CAN-PCIe / 402-1)

- 用于Internet访问的4G路由器

- 用于调试的显示器,键盘和鼠标

软件

- Ubuntu Linux

- Apollo Linux内核

1.1.3模块

1.1.3.1 定位

1.1.3.1 规划和控制

规划(Planning)

- 从定位模块中获取信息。

- 决定主车辆如何以最短的路径驾驶。

控制(Control)

- 从规划模块获取信息。

- 通过反馈方式控制chassis。

运动控制(Kinematic Control)

- 优化控制以解决方程并将解决方案输出到动态控制。

动态控制(Dynamic Control)

- 计算误差值e(t)作为输入和输出之间的差值。

- 应用基于比例项,积分项和微分项的校正

- Kp,KI和Kd分别是比例项,积分项和微分项。

- 在Apollo 1.0中,PID控制应用于转向和油门

1.2Apollo 1.5

1.2.1 固定车道自动驾驶

硬件和软件安装

主车

- 林肯MKZ

硬件

- IPC

- GPS(GPS天线,GPS接收器)

- IMU

- CAN卡

- LiDAR

- 用于Internet访问的4G路由器

- 显示器,键盘和鼠标

软件

- Ubuntu

- Apollo Linux内核

- NVIDIA GPU驱动程序

模块

定位

感知

Apollo 1.5可以通过使用LiDAR和HDMap来感知外部世界。

输入:LiDAR点云和HDMap多边形。

输出:跟踪车辆,行人及其移动轨迹

1.2.2 百度Ego定位系统

百度Ego定位系统是一款基于传感器信息,GNSS和百度高清地图的准确ego定位解决方案,

GNSS首先给出一个粗略的位置信息。通过参考位置信息,车辆周围的特征可以从摄像头获得。通过匹配HDMap的特征以及来自相机的特征,车辆可以精确定位。

结果:

- 左上方的部分是车辆的位置。红色是GPS定位的结果。黄色是百度ego定位系统的结果。

- 最终结果显示,横向或纵向位置几乎没有偏差。

1.2.3 端到端深度学习

端到端学习:我们可以直接从输入数据(一端)获取车辆的控制指令(另一端)

输入:摄像机的图像

输出:车辆的控制指令,如方向盘角度,加速度和制动。

输入和输出通过深度神经网络连接。

数据集分为两部分:使用训练数据集训练神经网络,测试数据集用于测试系统。

硬件

- 左侧相机,右侧相机,中间相机。

- NVIDIA Drive PX2

- SSD

- 主车辆

软件

- Ubuntu 16.04

- ROS Kinetic

- Px2 driveworks 0.1

1.2.4 云仿真平台

Apollo提供了一个云仿真平台,可以在没有车辆的情况下测试整个系统。

1.3Apollo 2.5

1.3.1 综述

  • 使用一台前置摄像头和一台前置雷达进行二级自动驾驶。
  • Ego vehicle将停留在车道上并与最近的路径车辆保持距离
  • Apollo 2.5支持高速公路上的高速自动驾驶,无需任何地图。
  • 利用深度学习网络处理图像数据。

1.3.2 模块

2《基于深度学习的语义分割技术》专题分享

主讲人:L同学(国内某知名互联网公司高级算法工程师)

主讲内容:基于深度学习的语义分割技术分析

2.1语义分割概述

现在基于深度学习的分割,分为两个大方向:SemanticSegmentation,InstanceSegmentation。它们的研究方向如下图:

本次分享主要在集中在Semantic Segmentation。

语义分割(semantic segmentatoion):对图片的每一个像素进行分类,即实现像素级别的分类。同一类别的不同实例不需要单独分割出来。

注:语义在语音识别中指的是语音的意思,在图像领域,语义指的是图像的内容,对图片意思的理解,比如左图的语义就是三个人骑着三辆自行车;分割的意思是从像素的角度分割出图片中的不同对象,对原图中的每个像素都进行标注,比如右图中粉红色代表人,绿色代表自行车。

2.2 Fully Convolutional Networks(FCN)

语义分割的目的是在一张图里分割聚类出不同物体的pixel,目前主流的分割框架都是基于FCN来实现的。FCN是图像分割中必读精品Paper。

FCN地址:http://blog.qure.ai/notes/semantic-segmentation-deep-learning-review#fcn

传统的基于CNN的语义分割方法是:将像素周围一个小区域作为CNN输入,做训练和预测。这样做有3个问题:

1像素区域的大小如何确定

2存储及计算量非常大

3像素区域的大小限制了感受野的大小,从而只能提取一些局部特征

FCN主要的贡献:

1第一个训练端到端的全卷积神经网络

2分类网络被重新设计为全卷积并从其学习的表示中进行微调(fine-tune)

主要构成:

FCN对图像进行像素级的分类,从而解决了语义级别的图像分割(semanticsegmentation)问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全连接层+softmax输出)不同,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的featuremap进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。最后逐个像素计算softmax分类的损失, 相当于每一个像素对应一个训练样本。下图是Longjon用于语义分割所采用的全卷积网络(FCN)的结构示意图:

这里可以将FC层视为整个输入空间上的卷积核,此时模型的输出可以视为语义分割等稠密问题的空间映射问题。如下图:

下面解释FCN中是如何实现上采样(upsample),FCN上采样预测分为FCN-32s,FCN-16s,FCN-8s三种,并且进行了特征融合,如下图:

结果:

2.3 Network Structure

U-Net在医学图像以及如今各类的image-to-image模型中非常受欢迎。其结构比较清晰,很优雅,呈一个U状,型如其名。U-Net和FCN相比,结构上比较大的改动在上采样阶段,上采样层使用了Concat层。

U-Net: Convolutional Networks for BiomedicalImage Segmentation

https://arxiv.org/abs/1505.04597

U-Net网络结构如下图:

U-net是encode-decode结构,而《The Devil is in the Decoder》这篇论文强调了解码器的重要性,提出了双线性差值上采样层等,如下图:

链接:https://arxiv.org/abs/1707.05847

在图像语义分割中,ASPP(Spaital pyramid pooling)和 encoder decoder的结构是十分常见,前者可以encode 多尺度的context信息,后者可以获取物体的边界及空间信息。所以作者的想法是把它们两者结合起来看能不能work。

《Encoder-Decoder with AtrousSeparable Convolution for Semantic Image Segmentation》

https://arxiv.org/abs/1802.02611v1

2.4 Receptive field

《ParseNet:Looking Wider to See Better》

https://arxiv.org/abs/1506.04579

ParseNet网络的 Movitation 是看到FCN并没有结合全局信息,所以没有利用潜在的scene-level的语义上下文特征,所以提出一种结合average feature的网络结构来提高分割性能

Globalcontext

作者用一个滑动的噪声去干扰输入图像,观察网络的输出,用来探测一个网络的有效感受野具体有多大。这是个不错的想法,因为论文大都是以核等参数反推出感受野,但是真正有效的感受野到底有多大呢?作者实验发现,理论上VGG的fc7应该有 404×404的感受野,但是实际上只有图像的1/4。作者发现,使用一个Gobal Pooling可以显著提高感受野,也可以提升分割效果。

Earlyfusion and late fusion

特征有两种融合方式,一个是早期融合,然后放入分类器一起分类,另一种就是晚期融合,就是分类后再融合.如果没有额外的处理,则两种方式是一样的.一般来说,早期融合可以很好利用更多特征,这个是晚期融合做不到的.但是作者发现,如果加入了L2正则,那么他们是相似的.但是做特征融合的时候一定要注意的是不同层的数据scale是不一样的,所以需要正则化才能融合.而且需要注意的是不同层的数据尺寸也不同啊,所以也不能够直接融合.所以,作者使用了 L2 norm.

L2normalization layer

尽管可以通过直接融合不同层,然后进行学习以改善不同scale的问题,但是这种方法仍然太过生硬,而且对于fine-tuning来说很难做好.所以作者提出使用 L2 norm,然后在对正则化后的数据进行scale到一个比较大的数据.

总的来说,本文思想很简单,在后来的许多文章中也都是用global context的思想(pspnet ,deeplab v3等)。

关于感受野(ReceptiveFields)更多的paper:

  • 《Pyramid Scene Parsing Network》
  • 《Multi-Scale Context Aggregation by Dilated Convolutions》
  • 《Large Kernel Matters—Improve Semantic Segmentation by GlobalConvolution Network》

2.5 Multi scale input

《Attention to Scale: Scale-aware SemanticImage Segmentation》

http://liangchiehchen.com/projects/DeepLab.html

针对语义分割问题,嵌入多尺度信息是很有必要的,这里我们提出用一个attention mechanism 来学习每个像素位置的 softly weight the multi-scale features

论文采用的是share-net的方式来得到多尺度的特征,在采用share-net方式提取多尺度特征时,需要考虑到一个问题,就是如何对多个尺度输入图像得到的特征进行融合

(1)多尺度输入图像的特征的融合目前主要有两种方式,一种是maxpooling;一种是averagepooling(取平均);

(2)本篇论文提出对多尺度输入图像特征进行加权求和进行融合:

结果:

《RefineNet:Multi-Path Refinement Networks for High-Resolution Semantic Segmentation》

https://arxiv.org/pdf/1611.06612v3.pdf

论文提出一种多阶段的提炼网络(RefineNet),使用long-range 残差连接,能够有效的将下采样中缺失的信息融合进来,从而产生高分辨率的预测图像。用这种方法可以将粗糙的高层语义特征和细粒度的底层特征进行融合。使用残差连接和identity mapping 的思想,能够实现端到端的训练。通过链式残差池化能够融合丰富的上下文信息。该模型的在7 个数据集上达到state-of-the-art的效果。

2.6 Prediction Refinement

《LSTM-CF:Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling》

https://arxiv.org/abs/1604.05000

本文提出了一种新的LSTM-CF模型,该模型捕获并融合来自多个数据通道的上下文信息,将该模型并入深度卷积神经网络(CNN)进行端到端训练。

《LearningAffinity via Spatial Propagation Networks》

https://arxiv.org/abs/1710.01020v1

深度学习网络借助成熟的物理扩散理论可以更好地理解相邻像素之间的关系。这有助于区分诸如自行车车轮、辐条以及辐条之间空白区域的相邻像素。这是图像分割的空间相关性问题,但通过训练网络可以确定许多其他特征的相关性,如颜色、色调、纹理等。

SpatialPropagation网络纯粹利用数据来学习定义这些相关性、并进行建模,而不依靠手动设计模型。并且学习模型能够应用于任何有像素级标签要求的任务,包括图像处理(例如Photoshop)、图像着色和脸部解析等等。此外,模型能够理解相关性,例如图像中的功能或语义关系,这一点甚至可能人类都做不到。

3 总结

AILOB青年技术专家平台联盟第四次分享会顺利召开,也完美落幕。联盟成员参与度很高,体现了大家的积极态度。会议期间,每个人都分享了自己的经历以及今后的发展方向,大家都受益匪浅。

特别感谢两位同学分别从学术和行业方向给大家带来的专题讲座。

在此,特别期待AILOB青年技术专家平台联盟第五次会议的举办!

附: AILOB青年技术专家平台联盟英雄帖

入会要求:

1,AI行业从业人员或对AI有浓厚兴趣者

2,原则上必须在上海或者周边,能参加两周或一个月一次在上海举办的分享会

3,原则上40周岁以下

(行业大牛不受2,3条限制)

入会流程:

1,提交简历

2,简历通过后,由联盟原成员对其进行电话面试,主要考察其对神经网络基本概念、CNN或RNN、以及其他面试官认为其需要了解的知识点的熟悉程度

(注:AI行业从事具体算法工作超过2年,或国内985高校及中科院、海外排名前500名高校的人工智能、模式识别、计算机视觉等相关领域硕博可免于面试)

简历投递邮箱:

AIinShanghai@126.com

我们热烈期待你的加入!

原文发布于微信公众号 - CVer(CVerNews)

原文发表时间:2018-07-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

不正之风!机器学习论文里都有哪四大投机取巧的写作手法?

AI 科技评论按:由于深度神经网络的成功,机器学习的整个领域也愈发热门、愈发茁壮。机器学习的繁荣以及 arXiv 助推下的知识和技巧快速更新当然是好事,不过这也...

2675
来自专栏人工智能头条

高铁新建人脸识别系统,如何做到整容也可以识别逃犯?

9726
来自专栏数据科学与人工智能

机器学习两次浪潮|机器学习

第一次浪潮:浅层学习 20世纪80年代末期,用于人工神经网络的反向传播算法(也叫Back Propagation算法或者BP算法)的发明,给机器...

2846
来自专栏云社区全球资讯抢先看

新的算法将一键修复损坏的数字图像

技术可以使用人工神经网络的力量来一次处理单个图像中的多种类型的图像噪点和图像模糊。

1922
来自专栏新智元

北大团队研发“车脸”识别系统,不看车牌看外观特征实现精确识别

【新智元导读】北京大学信息科学技术学院田永鸿等三名研究人员研发了根据汽车外观特征,而非扫描车牌号来精确识别摄像头拍摄的车辆的新技术。研究人员称该项技术也能用于人...

4218
来自专栏cloudskyme

算法——贝叶斯

简介 学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概...

36810
来自专栏新智元

过去5年最受欢迎机器学习论文+代码速查

【新智元导读】Papers with Code网站将ArXiv上的最新机器学习论文与GitHub上的代码联系起来。这个项目索引了大约5万篇论文和1万个GitHu...

1520
来自专栏机器之心

同步SGD等现有分布式训练方式将过时,Yoshua Bengio谈迈向硬件友好的深度学习

2018 年 AlphaGo Zero 所需的计算量是 2013 年 AlexNet 的 30 万倍。当前数据集空前巨大,模型准确率也很高,在此背景下,深度学习...

1552
来自专栏浮生的专栏

机器学习为更好的火灾现场安全

当勇敢的消防员身处险境试图抢救其他人和他们的财产的时候,他们的生命同样受到了威胁。在这篇文章中,我想分享我在AAIA第15届数据挖掘竞赛中的经验和获奖策略:给火...

2444
来自专栏华章科技

人人都会用到的数据可视化之常用图表类型

图表是”数据可视化”的常用手段,其中又以基本图表——柱状图、折线图、饼图等等最为常用。

1043

扫码关注云+社区

领取腾讯云代金券