业界 | 自动捕捉高光时刻:谷歌展示Google Clips全新智能摄影技术

作者:Aseem Agarwala

机器之心编译

参与:路、张倩

谷歌今天宣布,旗下 AI 智能相机 Google Clips 的技术再获升级。现在,它已能剪辑并自动捕捉特定时刻的图像——如人们的拥抱和亲吻,或跳跃和舞蹈动作。Google AI 博客对这款智能相机背后的机器学习技术进行了解读。

对我而言,摄影就是在几秒钟之内认识到一个事件的重要性,同时为这个事件找到恰当表达形式的一种精密组织形式。 ——Henri Cartier-Bresson

在过去几年里,人工智能经历了一场类似寒武纪的爆发,在深度学习方法的帮助下,计算机视觉算法能够识别出一张优质照片中的许多元素,包括人、微笑、宠物、日落、著名地标等。但是,尽管最近取得了这些进展,自动摄影仍是一个颇具挑战性的问题。相机能自动捕捉不平凡的时刻吗?

今年 2 月,谷歌发布了 Google Clips,这是一款全新的免持相机,可以自动捕捉生活中的有趣瞬间。在 Google Clips 的设计过程中,谷歌主要遵循以下三个重要原则:

  • 谷歌希望所有计算都在设备上运行。除了延长电池寿命和减少延迟之外,设备端处理还意味着,除保存或共享视频之外,任何视频都不会离开设备,这是隐私控制的关键一环。
  • 谷歌希望该设备能够拍摄短视频,而不是单张照片。有动作的时刻可能更深刻,也能留下更真实的记忆。而且,拍摄一个引人注目时刻的视频往往比即时捕捉一个完美瞬间更容易。
  • 谷歌希望捕捉人和宠物的真实时刻,而不是将精力放在捕捉艺术图像这种更抽象、更主观的问题上。也就是说,谷歌并未试图教 Clips 思考构图、色彩平衡、灯光等问题,而是专注于如何选取包含人和动物进行有趣活动的时刻。

学会识别不平凡的时刻

如何训练算法来识别有趣的时刻?与大多数机器学习问题一样,研究者首先从数据集入手。他们在不同的场景中创建了一个由数千个视频组成的数据集,想象 Clips 在这些场景中得到应用。同时研究者还确保数据集涵盖广泛的种族、性别和年龄。之后,谷歌聘请了专业摄影师和视频编辑仔细查看视频,选出最佳的短视频片段。这些早期的处理为他们的算法提供了可以模仿的实例。然而,仅仅从内容处理者的主观选择来训练算法是有挑战性的,我们需要平滑的标签梯度来教会算法识别内容的质量(从「完美」到「糟糕」)。

为了解决这个问题,研究者采用了第二种数据收集方法,目标是在视频长度上创建连续的质量分数。研究者将每个视频分割成小段(类似于 Clips 捕捉到的内容),然后随机选择片段对,并要求人类评分者选择他们喜欢的片段。

研究者采用这种成对比较的方法,而不是让评分者直接给视频评分,因为选择一对中更好的一个要比给出一个数字容易得多。研究者发现评分者在成对比较中非常一致,而在直接评分时分歧大一些。给定任意给定视频足够多的成对比较片段,我们就能计算整个长度上的连续质量分数。在这个过程中,研究者从 1000 多个视频中收集了超过 5000 万对成对比较视频片段。这是一项非常耗费人力的工作。

训练评估视频片段质量的模型

基于该质量得分训练数据,研究者的下一步就是训练一个神经网络模型来评估设备捕捉到的任意照片的质量。谷歌研究者首先假设了解照片中的内容(即人、狗、树等)有助于确定「有趣性」(interestingness)。如果该假设正确,则我们可以学习一个使用识别到的照片内容的函数来预测其质量得分(得分基于人类的对比评估结果)。

为了确定训练数据中的内容标签,研究者使用了支持谷歌图像搜索和 Google Photos 的谷歌机器学习技术,该技术可以识别超过 27000 个描述对象、概念和动作的标签。研究者当然不需要所有标签,也不会在设备端对所有标签进行计算,因此专业摄影师选择了几百个他们认为与预测照片「有趣性」最相关的标签。研究者还将最相关的标签与评分者的质量得分结合起来。

有了这个标签子集之后,研究者需要设计一个紧凑高效的模型,在能量和发热严格受限的设备端预测任意给定图像的标签。这是一项挑战,因为计算机视觉背后的深度学习技术通常需要强大的 desktop GPU,在移动端设备上运行的算法远远落后于桌面端或云端的当前最优技术。为了训练设备端模型,谷歌研究者首先采用大量照片集合,然后再次使用谷歌基于服务器的强大识别模型来预测上述每个「有趣」标签的置信度。研究者训练了一个 MobileNet 图像内容模型(Image Content Model,ICM),用于模仿基于服务器的模型的预测。该紧凑模型能够识别照片中最有趣的元素,忽略不相关的内容。

最后一步是利用 ICM 预测的照片内容,预测输入照片的质量得分,使用 50M 成对比较视频片段作为训练数据。得分通过逐段线性回归模型进行计算,将 ICM 输出转换为帧质量得分。视频片段中的帧质量得分取平均即为 moment score。给定一组成对对比视频片段,该模型计算出的人类偏好的视频片段的 moment score 更高一些。该模型的训练目的是使其预测尽可能与人类的成对比较结果一致。

生成帧质量得分的训练过程图示。逐段线性回归模型将 ICM 嵌入映射至帧质量得分,视频片段中的所有帧质量得分取平均即是 moment score。人类偏好的视频片段的 moment score 应该更高。

该过程使得研究者训练出一个结合谷歌图像识别技术和人类评分者智慧的模型。(人类评分者智慧主要体现在指出有趣内容的 5000 万条意见。)

拍照控制器(Shot Control)

基于这一预测照片「有趣性」的强大模型,Google Clips 可以决定哪些时刻需要实时捕捉。其拍照控制器算法遵循以下三个主要原则:

  1. 尊重电量 & 发热:谷歌希望 Clips 的电池能够持续大约三小时,同时不想设备过热,因此该设备不能一直全力运行。Clips 大部分时间处于每秒拍摄一帧的省电模式。如果这一帧的质量超过 Clips 最近拍摄的阈值集,则它进入高功率模式,以 15 fps 进行拍摄。Clips 在遇到第一次质量高峰时保存该视频片段。
  2. 避免冗余:谷歌不希望 Clips 一次捕捉所有时刻,而忽视了其他内容。因此谷歌的算法将这些时刻聚合成视觉相似的组,限制每一簇中的视频片段的数量。
  3. 后见之明的好处:看到所有的视频片段后,再选择最佳的视频片段就比较简单了。因此视频片段捕捉到的时刻要比它展示给用户的多。当视频片段要迁移至手机时,Clips 设备会花一秒时间查看其拍摄成果,只把最好和最不冗余的内容迁移过去。

机器学习公平性

除了确保视频数据集展现人口多样性,研究者还构建了多个测试来评估该算法的公平性。研究者通过从不同性别、肤色中均匀采样,同时保持内容类型、时长和环境条件不变,来精心创建数据集。然后,研究者使用该数据集测试该算法在应用到其他群体时是否具备相似性能。为了帮助检测提升 moment 质量模型时可能发生的任何公平性回归,研究者向该自动系统添加了公平性测试。该软件的任意改变都会在该测试中运行,并获得通过。注意该方法无法确保公平性,因为研究者无法测试每一个可能的场景和结果。但是,研究者相信这些步骤是实现机器学习算法公平性的长期工作中的重要部分。

结论

多数机器学习算法都是为评估客观质量而设计的,如判断照片中是否有猫。在本文中,谷歌的目标是捕捉一个更难捉摸、更主观的质量——判断个人照片是否有趣。因此,谷歌将照片的客观、语义内容与主观人类偏好相结合,构建了 Google Clips 背后的人工智能。此外,Clips 被设计成与人协同,而不是自主工作;为了获得优质的结果,人类的取景意识依然重要,还要确保相机的方向是有趣的内容。谷歌对 Google Clips 的出色表现感到欣慰,期待继续改进算法来捕捉「完美」时刻!

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【陆勤阅读】如何做好数据挖掘模型的9条经验总结

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞...

2085
来自专栏AI科技评论

Yann LeCun演讲图文:如何让AI学习常识,AI未来趋势又在何方 | GMIC 2018

人工智能作为一个发展中的技术,其实还在演进的过程当中,有所能为,有所不能为,因此还有很多亟待解决的问题

833
来自专栏大数据挖掘DT机器学习

数据挖掘模型生命周期管理

为成功地利用数据挖掘模型,我们需要从开发阶段直至生产环境对模型进行全面跟踪管理与评估。挖掘模型生命周期过程是由以下阶段组成的高效交替过程。 ? 确定商业目标 ...

2867
来自专栏新智元

AI vs 深度学习 vs 机器学习:人工智能的 12 大应用场景

【新智元导读】在本文中,作者先探讨了深度学习的特点和优势,然后介绍了12种类型的AI问题,即:在哪些场景下应该使用人工智能(AI)?作者强调企业AI问题,因为他...

3095
来自专栏软件成本造价评估

如何对一个软件项目的成本进行评估或估算?

  在对一个软件项目进行成本估算或评估时,应该包括从项目立项直至项目研发活动结束所花费的资源总和,并且可以按阶段进行估算或测量。 软件成本估算的基本过程...

1662
来自专栏数据科学与人工智能

【数据科学】数据科学中隐藏的数据智慧

在大数据时代,学术界和业界的大量研究都是关于如何以一种可扩展和高效率的方式来对数据进行储存,交换和计算(通过统计方法和算法)。 这 些研究领域无疑非常重要,然而...

2615
来自专栏AI科技大本营的专栏

【人工智能工程师】掌握这10个项目,秒杀90%面试者!

2017年人工智能给了我们太多的惊喜和变化,从今年开始,国际巨头们纷纷开始大踏步地战略转向——从移动优先转向AI优先:3月份的微软、4月份的Facebook、5...

3255
来自专栏ATYUN订阅号

【业界】是时候解决深度学习的生产力问题了

深度学习正在推动从消费者的手机应用到图像识别等各个领域的突破。然而,运行基于深度学习的人工智能模型带来了许多挑战。最困难的障碍之一是训练模型所需的时间。 ? 需...

3306
来自专栏人工智能头条

微软亚洲研究院:计算机看懂视频的步骤及未来努力方向

1262
来自专栏腾讯高校合作

CCF-腾讯犀牛鸟基金项目课题介绍(一)——机器学习&计算机视觉及模式识别

2748

扫码关注云+社区