5月机器学习TOP 10热文: Google Duplex,“换脸术”、网格单元(附文章地址)


新智元报道

来源:medium.mybridge.co

编辑:肖琴

【新智元导读】在6月的1400多篇机器学习相关的文章/项目中,Mybridge甄选了10篇最热文章(入选率0.7%)。主题包括:Google Duplex,网格单元,神经网络,TensorFlow,Keras,第一名解决方案,CVPR 2018等。

在 5 月的 1400 多篇机器学习相关的文章 / 项目中,Mybridge 甄选了 10 篇最热文章(入选率 0.7%)。

此列表中的主题:Google Duplex,网格单元,神经网络,TensorFlow,Keras,第一名解决方案,CVPR 2018 等。

Top 10 文章由 Mybridge AI 选出,综合考虑文章分享数量、阅读时间等,并使用机器学习算法对文章进行排序。相信这些文章分享的机器学习经验和技巧是有用的。

1. Google Duplex:一个通过电话完成真实世界任务的 AI 系统

5 月份最受关注的是谷歌在 I/O 大会演示的 Google Assistant 的新功能——Duplex 双工技术

利用 Duplex 双工技术,谷歌的智能助理能用非常类似人声的角色完成真实世界的任务。在 demo 中,谷歌 CEO Pichai 告诉听众,“你将要听到的是,谷歌的助理实际地打电话给一家真实的美容院,为你安排一个预约。” 当然,智能助理几乎毫无破绽地完成了任务。虽然后来这个演示是否真实受到一些质疑,但这一技术引发了业界热议。

在这篇文章中,谷歌首席工程师 Yaniv Leviathan 和工程副总裁 Yossi Matias 详细介绍了 Google Duplex 使用到的技术,包括:

  • Duplex 的核心是一个循环神经网络(RNN),使用 TensorFlow Extended(TFX)构建。
  • 使用谷歌自己的自动语音识别(ASR)技术来处理语音,将语音转换为文本。
  • 使用连续文本到语音(TTS)引擎和综合 TTS 引擎(使用 Tacotron 和 WaveNet)的组合,根据情况控制语调。

https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

2. “换脸术”Deep Video Portraits

Deep Video Portraits 是斯坦福大学、慕尼黑技术大学等的研究人员提交给今年 8 月SIGGRAPH 大会的一篇论文,描述了一种经过改进的 “换脸” 技术,可以在视频中用一个人的脸再现另一人脸部的动作、面部表情和说话口型。

例如,将普通人的脸换成奥巴马的脸。Deep Video Portraits 可以通过一段目标人物的视频(在这里就是奥巴马),来学习构成脸部、眉毛、嘴角和背景等的要素以及它们的运动形式。

论文地址:https://arxiv.org/abs/1805.11714

3. 在人工智能体中使用网格表示进行导航

虽然 AI 在围棋等许多任务超过了人类,空间导航能力对于人工智能体来说仍然是一个巨大的挑战。DeepMind 在 Nature 上发表的一篇论文引起 AI 领域和神经科学领域的极大震撼:AI 展现出与人脑 “网格细胞” 高度一致的空间导航能力

通过一系列实验操作,研究人员发现网格单元对于基于矢量的导航至关重要。例如,当网络中的网格单元被掐断时,agent 的导航能力就会受损,而且对目标的距离和方向的判断等关键指标的表示变得不那么准确。这项发现有助于 AI 可解释性的研究。

地址:https://deepmind.com/blog/grid-cells

4. 如何用 Python 从头开始构建一个神经网络

这是一个入门教程,初学者可以从这个教程开始,了解深度学习的内部运作。

神经网络是什么呢?许多介绍性文章会将其与大脑进行类比,但如果抛开神经网络和人脑的类比,将其描述为一个给定的输入和一个期望的输出之间的映射的数学函数,会更好理解。

神经网络包含以下元素:

  • 一个输入层 x
  • 任意数量的隐藏层
  • 一个输出层ŷ
  • 每一层之间的一组权重 W 和偏差 b
  • 每个隐藏层的激活函数σ。在这个教程中,使用 Sigmoid 激活函数。

图:一个 2 层神经网络的架构

地址:https://towardsdatascience.com/how-to-build-your-own-neural-network-from-scratch-in-python-68998a08e4f6

5. 对 Airbnb 上的照片进行分类

Airbnb 为数百万的民宿提供了一个平台,也因此获得了一大批民宿的房间细节照片和用户数据。在这个任务中,Airbnb 的数据团队利用计算机视觉和深度学习对民宿房屋照片进行分类。

其目的一方面是将具有相似风格的房源聚集到一起,方便用户浏览。另一方面,分类也可以帮助验证房间数量和房屋信息的准确性。该团队表示,利用这些图片数据,还将发掘出更多潜在的信息。

地址:https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3

6. Loc2Vec:用 triplet-loss 网络学习位置嵌入

这是一个以智能手机的传感器数据作为输入,例如加速度计、陀螺仪和位置信息,并从中提取行为洞察的平台,用于了解用户的模式,并能够预测和解释事情发生的原因。

这个平台的一个重要组成部分是场地映射算法(venue mapping algorithm)。venue mapper 的目标是弄清楚你要访问的地点。

地址:http://www.sentiance.com/2018/05/03/loc2vec-learning-location-embeddings-w-triplet-loss-networks/

7. 在浏览器中使用 TensorFlow.js 进行实时人体姿态估计

这是来自 TensorFlow 博客的教程,与谷歌创意实验室合作,发布了 TensorFlow.js 版本的 PoseNet。PoseNet 是一个机器学习模型,可以在浏览器中实时估计人体姿态。

PoseNet 可以利用单姿态或多姿态算法检测图像和视频中的人物,所有这些都可以在浏览器中实现。

PoseNet 的姿态估计分两个阶段进行:

  1. 将一个 RGB 图像作为输入,输入给卷积神经网络。
  2. 利用单姿态或多姿态解码算法解码来解码模型输出中的姿态、姿态置信度分数、关键点位置和关键点置信度分数。

PoseNet 返回检测到的每个人的置信度值以及检测到的每个姿势关键点。

https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5

8. 用 Keras 进行多标签分类

这是一个关于多标签分类的 Keras 教程,包括以下 4 个部分:

  • 讨论多标签分类数据集(以及如何快速构建自己的分类数据集)。
  • 简要讨论 SmallerVGGNet,这是将用来实现多标签分类的 Keras 神经网络架构。
  • 实现 SmallerVGGNet,并使用多标签分类数据集对其进行训练。
  • 最后,在示例图像上测试网络,并讨论一些注意事项

https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras

9. 谷歌地标检索挑战赛:第一名解决方案解读

四个月前,谷歌在 Kaggle 发布了一项地标检索挑战赛(Google Landmark Retrieval Challenge),参赛者被要求在所有图像数据集中检索到含有给定图像中地标的图片。

这篇文章是第一名团队的解决方案总结,包括两个主要部分:

  • 首先,创建一个高性能的全局描述符(global descriptor),它可以将数据集中的图像表示为奇异向量( singular vector);
  • 然后,创建一个高效框架,将这些向量和最可能的图像匹配,最后提交到积分榜上。

以下是一个流程图,每一步都标记 LB 分数。

https://www.kaggle.com/c/landmark-retrieval-challenge/discussion/57855

10. 学会 “夜视”

这是伊利诺伊大学香槟分校(UIUC)和 Intel Labs 合作的论文,提出一个基于端到端训练的用全卷积网络进行低照度图像处理的模型。这个网络直接处理原始传感器数据,并且基本不使用传统的图像处理流程。

视频介绍:

视频内容

论文地址:https://arxiv.org/abs/1805.01934

两个大型新数据集

伯克利大学发布大型驾驶视频数据集 BDD100K

伯克利大学发布了 BDD100K,这是目前为止最大规模也是最多样化的驾驶视频数据集。这些数据具有四个主要特征:大规模,多样化,在真实的街道采集,并带有时间信息。利用这个数据集,你还可以参加伯克利在 CVPR 2018 举办的自动驾驶竞赛。

地址:http://bair.berkeley.edu/blog/2018/05/30/bdd/

骨骼 X-ray 数据集

Andrew Ng 带领的斯坦福大学 ML 团队发布了一个目前为止最大规模的医学影像数据集 MURA(musculoskeletal radiographs),这个数据集包含 4 万多张多角度射线检测图像,来自对 12173 名病人的 14863 项研究,X 光影像包含人体上肢的 7 个部分:肘、指、小臂、手、肱、肩、腕。最近,该团队推出了基于此数据集的识别挑战赛:MURA 骨骼 X-ray 深度学习竞赛。

https://stanfordmlgroup.github.io/competitions/mura


原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-06-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

创新工场王嘉平开讲:low-level的计算机视觉

颜萌 整理编辑 量子位 出品 | 公众号 QbitAI ? 近日,在DeeCamp创新工场深度学习训练营期间,创新工场AI工程院副院长王嘉平开讲《low-le...

2635
来自专栏周景超的专栏

腾讯 AI Lab 计算机视觉中心人脸 & OCR 团队近期成果介绍 ( 2 )

近期,我们团队在人脸识别的关键任务上也取得突破,在人脸识别的国际权威评测平台(Megaface Challenge)中取得了国际领先的成果。同时,在人脸检测中,...

1.1K3
来自专栏新智元

【经典荐书】Yoshua Bengio大神教你深度学习(705页PDF)

Yoshua Bengio教授(个人主页)是机器学习大神之一,尤其是在深度学习这个领域。他连同Geoff Hinton老先生以及 Yann LeCun(燕乐存)...

3446
来自专栏人工智能

停车还是减速?伯克利实例演示对抗样本带来的潜在隐患

来源:BAIR 编译:Bot 近年来,深层神经网络(DNN)在图像处理、文本分析和语音识别等各种应用领域取得了长足进步,它因此也被作为重要组成部分纳入到许多信息...

2366
来自专栏AI科技评论

学界 | 顶会见闻系列:ICML 2018(上),表示学习、网络及关系学习

AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,...

795
来自专栏ATYUN订阅号

研究者开发深度学习方法重建模糊图像

来自加利福尼亚州劳伦斯利弗莫尔国家实验室的研究人员开发了一种基于深度学习的方法,可以在不展示原始图像的情况下重建模糊的或马赛克图像。这项工作首次提供单一无监督...

693
来自专栏机器之心

回顾 | CVPR 2017完全指北:深度学习与计算机视觉融合的一年,未来又会是什么?

机器之心(海外)原创 作者:QW、CZ 参与:王灏、Panda 当地时间 7 月 21 日到 16 日,夏威夷火奴鲁鲁迎来了 2017 年计算机视觉与模式识别会...

3836
来自专栏AI科技评论

如何玩转谷歌TensorFlow? | 牛人讲堂

AI并不是一门简单的学科,AI算法的开发和调试并没有一个统一的、集成了大量API方便调用的平台和语言,目前的人工智能开发平台仍然处于一种半蛮荒的状态。许多功能需...

3346
来自专栏腾讯云技术沙龙

叶聪:朋友圈背后的计算机视觉技术与应用

AI要走进千家万户,融入整个社会,而不仅仅是曲高和寡的模型。所以现在非常讲究AI场景化,使它成为与产业相关的部分。

2273
来自专栏CVer

魔都AI圣战者联盟第二次分享会圆满召开

魔都AI圣战者联盟(League of AI Mujahideen in Shanghai) 是由上海的AI行业从业者发起的民间组织。目前联盟主要成员为从...

953

扫码关注云+社区