首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >本周AI热点回顾:文章自动变视频、无人出租今起免费坐、YOLO v4复活

本周AI热点回顾:文章自动变视频、无人出租今起免费坐、YOLO v4复活

作者头像
用户1386409
发布2020-04-27 22:53:55
4730
发布2020-04-27 22:53:55
举报
文章被收录于专栏:PaddlePaddlePaddlePaddle

01

YOLO项目复活,大神接过衣钵!

两个月前,YOLO 之父 Joseph Redmon 表示,由于无法忍受自己工作所带来的的负面影响,决定退出计算机视觉领域。此事引发了极大的热议,当我们都以为再也没有希望的时候,YOLO v4 却悄无声息地来了。这一目标检测神器出现了新的接棒者!

本月24日,YOLO 的官方 Github 账号更新了 YOLO v4 的 arXiv 链接与开源代码链接,迅速引起了 CV 社区的关注。YOLO v4 的作者共有三位:Alexey Bochkovskiy、Chien-Yao Wang 和 Hong-Yuan Mark Liao。其中一作 Alexey Bochkovskiy 是位俄罗斯开发者,此前曾做出 YOLO 的 windows 版本。

在相关论文中,研究者对比了 YOLOv4 和当前最优目标检测器,发现 YOLOv4 在取得与 EfficientDet 同等性能的情况下,速度是 EfficientDet 的二倍!此外,与 YOLOv3 相比,新版本的 AP 和 FPS 分别提高了 10% 和 12%。

许多特征可以提高 CNN 的准确率,然而真正实行起来,还需要在大型数据集上对这些特征组合进行实际测试,并且对测试结果进行理论验证。某些特征仅在某些模型上运行,并且仅限于特定的问题,或是只能在小型数据集上运行;而另外有些特征(如批归一化和残差连接)则适用于大多数模型、任务和数据集。

那么,如何利用这些特征组合呢?

YOLOv4 使用了以下特征组合,实现了新的 SOTA 结果:

  • 加权残差连接(WRC)
  • Cross-Stage-Partial-connection,CSP
  • Cross mini-Batch Normalization,CmBN
  • 自对抗训练(Self-adversarial-training,SAT)
  • Mish 激活(Mish-activation)
  • Mosaic 数据增强
  • DropBlock 正则化
  • CIoU 损失

据介绍,YOLOv4 在 MS COCO 数据集上获得了 43.5% 的 AP 值 (65.7% AP50),在 Tesla V100 上实现了 ∼65 FPS 的实时速度。

该研究的主要贡献如下:

  1. 建立了一个高效强大的目标检测模型。它使得每个人都可以使用 1080Ti 或 2080Ti 的 GPU 来训练一个快速准确的目标检测器。
  2. 验证了当前最优 Bag-of-Freebies 和 Bag-of-Specials 目标检测方法在检测器训练过程中的影响。
  3. 修改了 SOTA 方法,使之更加高效,更适合单 GPU 训练。这些方法包括 CBN、PAN、SAM 等。
  • YOLO v4 论文: https://arxiv.org/abs/2004.10934
  • YOLO v4 开源代码: https://github.com/AlexeyAB/darknet

02

我什么都没做,文章就自动变成了视频?丨百度研究院出品

人工智能技术,现在可以实现自动剪视频了。只要有一篇现成的图文链接,AI就可以根据图文描述的主题,重新组织语言,自动搜寻素材,剪出一条短视频。换句话说,如果看到有意思的新闻却懒得读文章,那就把你在读的这篇文章的地址输入给AI,文章就自动变成了短视频。

而且,这个过程只需要几分钟的时间,完全无人化自动操作,你下楼买了杯咖啡,视频就自动做好了。这个“AI做视频”技术来自百度研究院,产品的名字,叫做VidPress

本质上,VidPress是做的事情是“图文转视频”,把人类写好的图文稿件重新编辑成视频:

比较之下,你会发现视频和文章的文案部分都是类似的,但视频中用到的素材却远不止文章中这么少,增加了许多人物和场景的动态镜头,而且相当契合主题。整个视频都是AI生成的,视频编辑只需要给出一篇文章的链接,过几分钟,热腾腾的视频就出锅了。

用VidPress来做视频,不需要视频编辑有任何技术背景,会复制粘贴就行。

首先,把需要改成视频的文章地址复制,粘贴到VidPress。

然后,选择用哪个声音合成,确定所需视频的长度以及分辨率。

现在,视频编辑就可以放手让AI开始工作了。

获得图文内容后,AI会借助NLP模型进行语义理解,用主题模型聚合相关新闻和素材。

之后,需要分别完成音频和图像的编辑工作。

音频方面,系统会用多种语言模型处理解析原文,生成解说词,之后借助语音合成技术变成音频。

而图像方面,原文中的图片肯定是不太够的,需要再搜寻更多视频和图片素材。素材的来源可以是视频编辑自己的素材库,也可以直接实时的用百度搜索来找素材。

有了视频素材和解说词音频文件,需要把两者合二为一。在这个任务上,百度自研了两代对齐算法,第一代对齐算法是基于段落的对齐,第二代则是基于锚点的时间轴对齐算法。

第二代对齐的算法首先需要找出解说词里观众的兴趣点,然后再将搜到的素材和这些兴趣点,进行相关度打分,综合考虑素材的来源、相似度、图片/视频内容的贴合度、内容质量等方面。

之后,得分高的素材就率先被翻牌子,放到视频时间轴里兴趣点的位置。而剩下的素材就会被填充到空隙里,最后再对整个时间轴的内容分布进行调整。

现在,AI就把视频做好了,渲染一下,就是一个完整的视频。

03

百度PaddleHub NLP模型全面升级,推理性能提升50%以上

PaddleHub为开发者提供了飞桨生态下的各类高质量预训练模型,涵盖了图像分类、目标检测、图像生成、图像分割、语义模型、词法分析、情感分析、文本审核、视频分类、关键点检测等场景。开发者可以直接使用这些预训练模型结合PaddleHub Fine-tune API快速完成迁移学习到应用部署的全流程工作。

如今,PaddleHub经过去年一年的打磨,变得更加成熟,最新的1.6版本震撼来袭,新增五大亮点!

1. 助力抗疫,新增口罩佩戴检测模型和CT影像肺炎分割模型。

在全国人民紧张抗疫的时刻,2月13日飞桨PaddleHub开源了业界首个口罩人脸检测及分类模型。基于该模型检测设备可以在公共场所中扫描大量人脸的同时,把佩戴口罩和未佩戴口罩的人脸分别标注出来,快速识别出不重视、不注意病毒防护、心存侥幸的人员,减少公众的防疫安全隐患,同时构建更多的防疫公益应用。

  • 模型在线体验:

https://www.paddlepaddle.org.cn/hub/scene/maskdetect

  • 模型使用示例:

https://aistudio.baidu.com/aistudio/projectdetail/267322

2. NLP预训练模型升级,增加文本鉴黄模型,助力文本审查工作。

随着AI技术的发展,人力成本不断提高,深度学习模型在各行各业的应用领域越来越广阔,用户对于深度学习模型的应用与性能需求也在不断的增多。因此PaddleHub与时俱进,将应用较为广泛的自然语言处理(NLP)领域的模型库全面升级。

  • Porn Detection模型介绍:

https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=TextCensorship

3. 全面集成Paddle Inference原生推理库,预测性能提升50%以上。

对于工业级部署而言,要求的条件往往非常繁多而且苛刻,例如推理速度快、内存占用小等等。新版本PaddleHub内置了飞桨原生推理库Paddle Inference。通过飞桨核心框架的计算图优化技术,针对不同平台和不同应用场景深度适配和优化,具备高吞吐、低时延的特点,使飞桨模型在服务器端可完成高性能预测部署。如图6所示,与升级前相比,无论是可直接推理模型(例如LAC、Senta),还是Fine-tune后的模型(例如ERNIE),其推理性能均提升50%以上。

4. 开放预训练模块制作流程,支持开发者贡献模块至PaddleHub平台。

在过去的一年中,PaddleHub的Fine-tune API功能受到广大用户的好评。同时了解到用户对于训练好的模型如何做到通过hub.Module(name="***")实现一键加载也十分感兴趣,而且将Fine-tune后模型用于部署推理成为了很多用户的刚需。相信有不少用户希望这道封印能够消失!

现在告诉大家一个“喜大普奔”的好消息!新版本PaddleHub开放预训练模型和Fine-tune模型转化为Module的流程,并且可以使用一键加载功能。

  • 预训练模型转化为module教程:

https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.6/docs/contribution/contri_pretrained_model.md

  • Fine-tune模型转化为module教程:

https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.6/docs/tutorial/finetuned_model_to_module.md

5. 新增Bert Service文本向量服务,支持对任意文本获得高质量语义表示。

对句子的向量化表达提取是文本理解任务中的重要环节。Bert Service是基于Paddle Serving框架的快速模型部署远程计算服务方案,如下所示,它可以让开发者仅使用一行命令,就可将PaddleHub中丰富的语义预训练模型转换为文本向量服务。然后用户可以通过远程调用API接口的方式使任务文本转换为高质量的向量表达,完成特征提取工作。

信息来源:飞桨PaddlePaddle

04

无人出租今起免费坐,只恨不是长沙人

从今天起,出门打出租不仅不花钱,还是无人驾驶的那种。

4月19日,百度Apollo——就那个自动驾驶业务,决定在推出3周年之际,送出自己的羊毛和福利:

RoboTaxi——无人驾驶出租,人人可坐,一律免单,长沙人民率先尝鲜。

还有长沙妹子夸赞:“在长沙可以打无人车啦,太靓赛啦!”

去年,百度就在长沙率先投放了第一批RoboTaxi,而且所用车辆,均是与一汽红旗专门打造的L4量产车型。

而现在,初步运营期已过,从安全到驾驶体验都得到验证。

于是百度借着Apollo三周年之庆,给长沙——从市民到游客,只要来长沙,就能免费呼叫无人驾驶出租车:

Apollo的Robotaxi服务,正式接入百度App和百度地图两大应用,全面开放给长沙这座城市。无论是长沙本地的人民,还是来到长沙的客人们,都可以在130平方公里的范围内乘坐自动驾驶出租车出行。

与之前面向种子用户的试运营不同,现在,只要人在长沙,不需要经过报名、筛选等流程,享受自动驾驶的服务没有任何门槛。而乘客安全一样会得到保障,有安全员坐镇,并且还是免费乘坐。

这也意味着,人们期盼多年的自动驾驶,现在终于落地成真了。

这也是首个通过国民级应用向公众开放的无人驾驶出租服务。从中不仅可以看出百度Apollo的诚意——毕竟人人可坐全部免费,更能看出自信——对安全和体验的绝对信心。

信息来源:量子位

05

本周论文推荐

【ACL 2020 | 百度】Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation

作者:Dian Shao, Yue Zhao, Bo Dai, Dahua Lin

论文介绍:

本论文提出用图的形式捕捉对话转移规律作为先验信息,用于辅助开放域多轮对话策略学习。

基于图,本论文设计策略学习模型指导更加连贯和可控的多轮对话生成。首先,从对话语料库中构造一个对话图(CG),其中顶点表示“what to say”和“how to say”,边表示对话当前句与其回复句之间的自然转换。然后,本论文提出了一个基于 CG 的策略学习框架,该框架通过图形遍历进行对话流规划,学习在每轮对话时从 CG 中识别出哪个顶点和如何从该顶点来指导回复生成。

本方法可以有效地利用CG来促进对话策略学习,具体而言:

(1)可以基于它设计更有效的长期奖励;

(2)它提供高质量的候选操作;

(3)它让我们对策略有更多的控制。

本论文经过两个基准语料库上进行了实验,结果证明了本文所提框架的有效性。

END

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PaddlePaddle 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档