首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

教程 | 如何使用深度学习为照片自动生成文本描述

使用人力标注显然不现实,而随着深度学习技术的发展,使用机器为图像自动生成准确的文本描述成为了可能。...Jason Brownlee 博士的这篇文章对使用深度学习的图像描述进行了介绍,机器之心对本文进行了编译。 图像描述涉及到为给定图像(比如照片)生成人类可读的文本描述。...最近,在为图像自动生成描述(称为「字幕」)的问题上,深度学习方法已经替代了经典方法并实现了当前最佳的结果。在这篇文章中,你将了解可以如何使用深度神经网络模型为照片等图像自动生成描述。...用描述标注图像区域的示例;来自《用于生成图像描述深度视觉-语义对齐》,2015 这个问题还可以延伸到随时间描述视频中的图像。...对该模型的一种改进方法是为输出序列收集词在词汇库中的概率分布并搜索它以生成多个可能的描述。这些描述可以根据似然(likelihood)进行评分和排序。

2.5K110
您找到你想要的搜索结果了吗?
是的
没有找到

视频到语言: 视频标题生成描述研究综述

随着深度学习技术的发展, 研究人员使用大规模训练数据对深度卷积神经网络(Deep convolutional neural networks, DCNN)进行优化[8-11], 并将其应用于视频特征提取...目前, 随着深度学习技术的广泛应用, 人们也将其应用在视频描述领域中, 从视频特征编码, 到描述语句生成, 设计了多种有效的模型与方法, 大幅提升了模型性能, 有效改善了生成语句的质量....具体表现在, 人们参考机器翻译与图像描述中流行的做法, 使用深度卷积神经网络及三维卷积神经网络等对视频进行特征编码, 然后使用RNN网络对视觉特征进行解码, 逐个生成词汇并组成句子....总结与展望 视频描述任务与图像描述类似, 都是将非结构化的视觉数据转换为结构化的自然语言, 其间使用中间语言(视觉特征)进行桥接, 以机器学习技术(尤其是深度学习技术)为支撑, 运用多种计算机视觉和自然语言处理技术...同时加强对视频描述可解释性的研究, 构建相应的知识图谱, 并结合零样本学习策略, 通过对现有知识的学习, 对视觉信息之外的隐含语义进行预测和推理, 进一步增强生成句子的可用性. 4) 视觉描述任务的评价内容及过程比其他视觉任务更加复杂

42140

谷歌AI:根据视频生成深度图,效果堪比激光雷达

单位为mm,效果参考下图: 在场景视频景深学习领域,谷歌AI和机器人实验室联合公布了三项最新研究突破: 第一,证明了可以以一种无监督的方式训练深度网络,这个深度网络可以从视频本身预测相机的内在参数,包括镜头失真...图1:从未知来源的视频学习深度的方法的定性结果,通过同时学习相机的外在和内在参数来实现。由于该方法不需要知道相机参数,因此它可以应用于任何视频集。...深度学习能够从数据中获得这些假设,而不是手工指定这些假设。在信息不足以解决模糊性的地方,深度网络可以通过对先前示例进行归纳,以生成深度图和流场。...最后,我们首次演示了可以在YouTube视频学习深度和相机内在预测,这些视频是使用多个不同的相机拍摄的,每个相机的内建都是未知的,而且通常是不同的。...论文摘要 《场景视频景深学习——非特定相机单眼图片景深无监督学习》 我们提出了一种新颖的方法,仅使用相邻视频帧的一致性作为监督信号,用于同时学习单眼视频深度,运动,物体运动和相机内建。

1.2K20

深度学习成了前端开发神器:根据UI设计图自动生成代码

运用深度学习,这个系统能够根据输入的图形用户界面(GUI)截图直接输出对应的代码,从而省去前端手动编写代码的过程。...目前pix2code所生成代码的准确率已经达到77%,且这些代码能够兼容安卓、iOS以及Web界面三种平台。 到底有多神奇?看看下面这段视频就知道了。...Beltramelli还表示,在未来,他们可能会用生成对抗网络(GANs)对pix2code进行进一步的完善。...GANs已经证明了自己在生成序列和图像时的优势,但因为这一领域内的研究还处于相对初步的阶段,要对神经网络进行训练仍然需要花费大量的时间。...A:不,pix2code只是一个研究项目,它将保持论文中所描述的状态。这个项目其实只是对我们在Uizard Technologies所做工作的一个小小展示。

1.4K100

视频中的深度学习

对人类视觉皮层机理的研究无疑对视频分析有着重要的借鉴和指导意义。在这方面,根据人类大脑研究发展出来的深度学习具备了独特的优势。...---- 视频分析中深度学习的特点 视频中基本单元是图像,因此视频分析往往转换为图像序列立即诶进行研究,而这其中图像的表达是最基本也是最重要的环节。...---- 传统智能视频分析技术的不足 智能视频分析技术利用一些图像处理、模式识别或机器学习等领域的算法来分析视频序列中的信息,以达到理解视频内容的目的,也被称为视频内容分析。...在讨论深度学习技术之前,先来谈一谈大数据,因为深度学习与大数据密不可分。...笔者注意到,已经有很多安防企业开始投入资源开发基于深度学习技术的算法、产品。可见,深度学习正影响着安防企业,影响着智能视频分析技术。接下来我们将从几个行业应用来分析深度学习的前景。

82160

视频 | 谷歌新一代WaveNet :深度学习怎么生成语音?

ON MEL SPECTROGRAM PREDICTIONS 翻译 | 张锋凯 整理 | 凡江 林尤添 在往期的 2 分钟论文栏目中,我们有谈过 Google 的 WaveNet(一个基于学习型的文本到语音引擎...),也就是说,只要我们给予已经训练好的模型一些朗读的素材,引擎就会尽可能生成一个较真实的声音。...而在本期视频中,我们将介绍一个新的产品,它在原有的基础上进行改进,让合成语音臻于完美。 ?...我们对其的检验方法是记录以前算法的平均意见分(用来描述声音样本和人类真实声音的比分)。我们的新算法大获成功,之后通过用户研究更加接地气的检验,让用户进行盲测,猜测听到的声音是合成的还是真实的。 ?...请注意,生成这些波形不是实时的,而且还需要很长时间。为了有更好的效率,DeepMind 的科学家撰写了一篇轰动的论文,把 WaveNe 的波形生成速度提升了上千倍。

77440

【干货】首次使用分层强化学习框架进行视频描述生成,王威廉组最新工作

,通过分层深度强化学习,在文本生成上可以做到语言表达更加连贯,语义更加丰富,语法更加结构化。...▌摘要 ---- 视频描述根据视频中的动作自动生成的文本描述的任务。...然而,段落生成问题经常会根据视频时间间隔被分成多个单句生成场景。有些研究采用动作检测技术来预测时间间隔[12],但没有明显改善视频描述的结果。...提出的框架是一个完全可微分的深度神经网络(见图2),包括(1)高层次的序列模型管理模块(Manager),以较低的时间分辨率设置目标;(2)低层次序列模型工作模块(Worker)根据Manager中的目标在每个时间步选择基本操作...▌结论 ---- 本文引入了视频描述的分层强化学习框架,其目的在于改进在具有丰富活动的细粒度视频场景下生成文本描述的方法。两层结构相互作用,在这个复杂的任务中展现出结构和语义的协调性。

1.9K40

深度学习赋能视频编码

深度学习赋予了诸如计算机视觉等领域新的研究契机,其应用也获得了视频编码领域的诸多关注。...mode=playback&token=edc99c13b9a24a2093486239dbac8785 大家好,我是来自北京大学的王苫社,本次带来的分享主要是从神经网络视频编码历史和基于深度学习视频编码进展两方面来与大家探讨关于深度学习视频编码中的一些问题...基于深度学习视频编码进展 接下来我将从预测增强、环路滤波和深度学习视频编码标准三个方面来为大家介绍基于深度学习视频编码到目前为止的进展。...首先为大家描述一下深度学习视频编码框架中都应用到了哪些环节。...目前,基于深度学习的端到端的视频编码也已经有了一些新的成果。而对于为什么深度学习能够带来明显的视频编码性能提升?这个问题迄今为止尚未有人能够提供细致、清楚的理论依据。

1.6K41

深度学习赋能视频编码

image.png 深度学习赋予了诸如计算机视觉等领域新的研究契机,其应用也获得了视频编码领域的诸多关注。...mode=playback&token=edc99c13b9a24a2093486239dbac8785 大家好,我是来自北京大学的王苫社,本次带来的分享主要是从神经网络视频编码历史和基于深度学习视频编码进展两方面来与大家探讨关于深度学习视频编码中的一些问题...基于深度学习视频编码进展 image.png 接下来我将从预测增强、环路滤波和深度学习视频编码标准三个方面来为大家介绍基于深度学习视频编码到目前为止的进展。...image.png 首先为大家描述一下深度学习视频编码框架中都应用到了哪些环节。...目前,基于深度学习的端到端的视频编码也已经有了一些新的成果。而对于为什么深度学习能够带来明显的视频编码性能提升?这个问题迄今为止尚未有人能够提供细致、清楚的理论依据。

1.1K40

NVIDIA最新深度学习模型:根据音乐自动编舞

编辑 | KING 发布 | ATYUN订阅号 NVIDIA研究人员与加利福尼亚大学、默塞德大学合作开发了一种基于深度学习的模型,该模型可以自动编排多样化、风格一致并与节拍匹配的新舞蹈动作。...该工作的核心是分解到合成的框架,该框架首先学习如何移动,然后学习如何组成。 ? 在自上而下的分解阶段,团队使用运动节拍检测器对从实际舞蹈序列中分割出的舞蹈单元进行归一化。...在自下而上的作曲阶段,给定一对音乐和舞蹈,团队利用MM-GAN学习如何根据给定音乐组织舞蹈单元。...为了训练系统中使用的生成对抗网络,团队收集了三个代表性舞蹈类别的舞蹈视频,包括芭蕾舞,尊巴舞和嘻哈。团队总共获得了361000多个剪辑或大约71个小时的舞蹈镜头。...这项工作是使用PyTorch深度学习框架和NVIDIA V100 GPU进行的。为了进行推断,本文使用了培训期间使用的相同GPU。在以后的工作中,团队计划增加更多的舞蹈风格,例如流行舞和伴侣舞。

1.2K20

深度学习、机器学习相关课程视频汇总

很多人诟病作业的代码给得太全,但我认为作为一门入门课程,编程作业设置得十分好,各种机器学习的作用能很直观地展示出来,这样很能激发学习兴趣。...除去初学者之外,这门课程也很适合工作中需要用到一些机器学习但不打算深入研究的程序员。...2、华盛顿大学 Pedro Domingos 机器学习 (Machine Learning) 该课程一直没有开课,但是可以preview,视频量很足,类容丰富,用Coursera Downloader...链接: http://pan.baidu.com/s/1hsmAsNq 密码: kxfj 4、中国台湾大学 林軒田 机器学习技法(Machine Learning Techniques) 机器学习基石...Hinton大神在Coursera上的这门课程只在2012年开过一轮,这次应该不会进行迁移了: “Deep learning必修课” “宗派大师+开拓者直接讲课,秒杀一切二流子” 看看上面的点评,对深度学习感兴趣的同学赶紧保存

1.3K80

如何运用深度学习自动生成音乐

我将我的两种热情——音乐和深度学习——结合起来,创造了一个自动音乐生成模型。梦想成真了! 很高兴与大家分享我的方法,包括让你生成自己的音乐的整个代码!...因此,他用随机理论来描述它。他对元素的随机选择严格依赖于数学概念。 近年来,深度学习架构已经成为自动生成音乐的最新技术。...自动生成音乐的不同方法 羡慕详细讨论自动生成音乐的两种基于深度学习的体系结构:WaveNetLSTM。但是,为什么只有深度学习架构? 深度学习是受神经结构启发的机器学习领域。...方法1 :使用WaveNet WaveNet是由Google DeepMind开发的一个基于深度学习的原始音频生成模型。 WaveNet的主要目标是根据原始数据分布生成新的样本。...这是因为深度学习模型在执行时由于随机性可能会输出不同的结果。这确保每次都能产生相同的结果。

2.2K00

深度学习生成对抗网络(GAN)

一、概述 生成对抗网络(Generative Adversarial Networks)是一种无监督深度学习模型,用来通过计算机生成数据,由Ian J. Goodfellow等人于2014年提出。...在之后的几年中生GAN成为深度学习领域中的研究热点,近几年与GAN有关的论文数量也急速上升,目前数量仍然在持续增加中。...Yann LeCun(“深度学习三巨头”之一,纽约大学教授,前Facebook首席人工智能科学家)称赞生成对抗网络是“过去20年中深度学习领域最酷的思想”,而在国内被大家熟知的前百度首席科学家Andrew...Ng也把生成对抗网络看作“深度学习领域中一项非常重大的进步”。...由于深度学习的神经网络层数很多,每一层都会使得输出数据的分布发生变化,随着层数的增加网络的整体偏差会越来越大。

2.2K20

深度学习视频理解之图像分类

根据中国互联网络信息中心(CNNIC)第47次《中国互联网络发展状况统计报告》,截至2020年12月,中国网民规模达到9.89亿人,其中网络视频(含短视频)用户规模达到9.27亿人,占网民整体的93.7%...梯度消失现象解决起来要比梯度爆炸困难很多,如何缓解梯度消失是RNN 及几乎其他所有深度学习方法研究的关键所在。LSTM和GRU通过门控(Gate)机制控制 RNN中的信息流动,用来缓解梯度消失问题。...图3 LSTM 运行原理图 根据原理图,我们可以对 LSTM中各单元的作用进行分析。 输出门 :输出门的目的是从细胞状态 产生隐层单元 。...在理解一句话时,当前词 可能继续延续上文的意思继续描述,也可能从当前词 开始描述新的内容,与上文无关。...*本文节选自《深度学习视频理解》一书,作者张皓 ▼ 本书重点介绍视频理解中的3大基础领域:动作识别(Action Recognition)、时序动作定位(Temporal Action Localization

1.3K40
领券