亿咖通科技助力开源项目 OpenHarmony 技术成熟与应用落地

原创

不会飞的小鸟

修改于 2021-06-07 09:52:02

4740

6 月 1 日，开放原子开源基金会（OpenAtom Foundation，以下简称“基金会”）正式发布开源项目 OpenHarmony 2.0 Canary 版本。全部代码已上载至 Gitee，并对全球开放下载。作为该项目七家初始共建成员之一，亿咖通科技本着“精诚合作，开源并进”的合作愿景，携手基金会，与行业伙伴共享汽车智能座舱解决方案的丰富研发经验，助力 OpenHarmony 开源项目技术成熟与应用落地，携手全球技术伙伴共商、共建、共享、共赢，共同推进汽车智能化与智能互联产业的繁荣发展。

为了解决目前诸多智能终端之间越发复杂的应用开发问题，天生面向万物互联的 OpenHarmony 应运而生。OpenHarmony 是由基金会孵化及运营的开源项目。此次发布的 OpenHarmony 2.0 Canary 版本自主研发（不兼容安卓），主要遵循 Apache 2.0 协议开源，目标是面向全场景、全连接、全智能时代，基于开源的方式，搭建智能终端设备操作系统的框架和平台，使系统可以运行在大大小小的各种智能终端上。

一直以来，亿咖通科技联合全球技术与生态合作伙伴，持续探索创新，致力于为全球客户提供技术及平台服务能力。亿咖通科技的智能网联系统在全球范围内已拥有超过数百万用户，用户量增长速度在业内领先。2020 年 12 月，亿咖通科技以创始会员的身份加入了 OpenHarmony 项目，其他创始成员分别为博泰、华为、京东、润和、中科院软件所、中软国际（排名按单位简称首字母排序）。此次亿咖通科技与业内精尖伙伴通力协作，将为应用提供方和用户提供一种全新的服务方式，使应用开发更简单、服务的获取和使用更便捷。外“

实例分割是计算机视觉中的基础问题之一。目前，静态图像中的实例分割业界已经进行了很多的研究，但是对视频的实例分割（Video Instance Segmentation，简称VIS）的研究却相对较少。而真实世界中的摄像头所接收的，无论是自动驾驶背景下车辆实时感知的周围场景，还是网络媒体中的长短视频，大多数都是视频流信息而非纯图像信息。因而研究对视频建模的模型有着十分重要的意义，本文系美团无人配送团队在CVPR2021发表的一篇Oral论文: 《End-to-End Video Instance Segmentation with Transformers》的解读。本届CVPR大会共收到7015篇有效投稿，最终共1663篇论文被接收，论文录用率为23.7%，Oral的录用率仅为4%。

背景

图像的实例分割指的是对静态图像中感兴趣的物体进行检测和分割的任务。视频是包含多帧图像的信息载体，相对于静态图像来说，视频的信息更为丰富，因而建模也更为复杂。不同于静态图像仅含有空间的信息，视频同时含有时间维度的信息，因而更接近对真实世界的刻画。其中，视频的实例分割指的是对视频中感兴趣的物体进行检测、分割和跟踪的任务。如图1所示，第一行为给定视频的多帧图像序列，第二行为视频实例分割的结果，其中相同颜色对应同一个实例。视频实例分割不光要对单帧图像中的物体进行检测和分割，而且要在多帧的维度下找到每个物体的对应关系，即对其进行关联和跟踪。

VisTR算法介绍

重新定义问题

首先，我们对视频实例分割这一任务进行了重新的思考。相较于单帧图像，视频含有关于每个实例更为完备和丰富的信息，比如不同实例的轨迹和运动模态，这些信息能够帮助克服单帧实例分割任务中一些比较困难的问题，比如外观相似、物体邻近或者存在遮挡的情形等。另一方面，多帧所提供的关于单个实例更好的特征表示也有助于模型对物体进行更好的跟踪。因此，我们的方法旨在实现一个端到端对视频实例目标进行建模的框架。为了实现这一目标，我们第一个思考是：视频本身是序列级别的数据，能否直接将其建模为序列预测的任务？比如，借鉴自然语言处理（NLP）任务的思想，将视频实例分割建模为序列到序列（Seq2Seq）的任务，即给定多帧图像作为输入，直接输出多帧的分割Mask序列，这时需要一个能够同时对多帧进行建模的模型。

第二个思考是：视频的实例分割实际同时包含实例分割和目标跟踪两个任务，能否将其统一到一个框架下实现？针对这个我们的想法是：分割本身是像素特征之间相似度的学习，而跟踪本质是实例特征之间相似度的学习，因此理论上他们可以统一到同一个相似度学习的框架之下。

基于以上的思考，我们选取了一个同时能够进行序列的建模和相似度学习的模型，即自然语言处理中的Transformer[5]模型。Transformer本身可以用于Seq2Seq的任务，即给定一个序列，可以输入一个序列。并且该模型十分擅长对长序列进行建模，因此非常适合应用于视频领域对多帧序列的时序信息进行建模。其次，Transformer的核心机制，自注意力模块（Self-Attention），可以基于两两之间的相似度来进行特征的学习和更新，使得将像素特征之间相似度以及实例特征之间相似度统一在一个框架内实现成为可能。以上的特性使得Transformer成为VIS任务的恰当选择。除此之外，Transformer已经有被应用于计算机视觉中进行目标检测的实践DETR[6]。因此我们基于transformer设计了视频实例分割（VIS）的模型VisTR。

VisTR算法流程

遵照上述思想，VisTR的整体框架如图2所示。图中最左边表示输入的多帧原始图像序列（以三帧为例），右边表示输出的实例预测序列，其中相同形状对应同一帧图像的输出，相同颜色对应同一个物体实例的输出。给定多帧图像序列，首先利用卷积神经网络（CNN）进行初始图像特征的提取，然后将多帧的特征结合作为特征序列输入Transformer进行建模，实现序列的输入和输出。

不难看出，首先，VisTR是一个端到端的模型，即同时对多帧数据进行建模。建模的方式即：将其变为一个Seq2Seq的任务，输入多帧图像序列，模型可以直接输出预测的实例序列。虽然在时序维度多帧的输入和输出是有序的，但是单帧输入的实例的序列在初始状态下是无序的，这样仍然无法实现实例的跟踪关联，因此我们强制使得每帧图像输出的实例的顺序是一致的（用图中同一形状的符号有着相同的颜色变化顺序表示），这样只要找到对应位置的输出，便可自然而然实现同一实例的关联，无需任何后处理操作。为了实现此目标，需要对属于同一个实例位置处的特征进行序列维度的建模。针对性地，为了实现序列级别的监督，我们提出了Instance Sequence Matching的模块。同时为了实现序列级别的分割，我们提出了Instance Sequence Segmentation的模块。端到端的建模将视频的空间和时间特征当做一个整体，可以从全局的角度学习整个视频的信息，同时Transformer所建模的密集特征序列又能够较好的保留细节的信息。

www.fengten178.cn

www.wushuangxin2.cn

www.jinfeng777.cn

www.tianxia3.cn

www.xinhong729.cn

www.haituozhixing.com

www.jinfeng4.com

为加速实现 OpenHarmony 在汽车智能化方向的技术成熟与落地应用，亿咖通科技分享对于行业发展趋势的前瞻洞察、参与探讨 OpenHarmony Car API 的定义与代码实现。同时，亿咖通科技计划于 2021 年下半年，与基金会共同推进形成智能座舱解决方案，并将 OpenHarmony 移植到亿咖通科技智能座舱硬件平台进行 demo 展示。

未来，亿咖通科技将持续加速汽车智能化的创新与探索，以创新成果吸引全球更多的合作伙伴和开发者参与 OpenHarmony 项目，与众多开发合作伙伴共同构建起开源开放、面向万物互联时代的 OpenHarmony 生态，打造具有更高行业标准的智能座舱解决方案，促进更加通用灵活的行业开发与丰富多元的生态整合模式繁荣发展，推动实现“让智慧出行驱动美好生活”的长期愿景。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

开源