李杉 李林 编译整理 量子位 报道 | 公众号 QbitAI 📷 △ 『凡所有相,皆是虚妄』 上面这张德国街道图片,乍一看像是行车记录仪拍的,又好像谷歌街景照片加了复古滤镜。 实际上,这是一张合成图片。 在谷歌地图上,根本找不到这样的街道。一个神经网络,根据自己在训练过程中见过的真实街道,生成了它。 视频内容 比GAN更强 生成这张照片的算法出自英特尔实验室的新论文Photographic Image Synthesis with Cascaded Refinement N
在古罗马作家普林尼的作品《自然史》中记述了这样一则故事:“公元前五世纪,古希腊画家宙克西斯(Zeuxis)以日常绘画和对光影的利用而闻名。他画了一个小男孩举起葡萄的作品,葡萄非常自然、逼真,竟吸引鸟儿前来啄食。然而宙克西斯并不满意,因为画上的男孩举起葡萄的动作还不够逼真,没有吓跑鸟儿。”技术高超的画家想做出以假乱真的画已经很困难了,机器可以实现这个任务吗?
perceptual loss 图1. 给定一个文本描述,构成一个语义结构,(box+mask),由前面的两个大条件,合成图片。与Reed的思路很像,但解决方案不同。 一、从文本来推断语义布局 1.bounding box 的生成 bounding box (图1中的box)决定了生成图片的全局布局,因为,box定义了图片中有哪种目标以及将这些目标放到哪些位置。我们将第 t 个标注的 bounding box 表示为 图二. 其中, b_{t} 里面包含四个变量,分别表示boundi
来源:techcrunch 作者:Devin Coldewey 编译:马文 【新智元导读】计算机视觉领域顶会之一的 ICCV 结束不久,图像质量提升、从头创建图像、风格迁移、图像描述等方面都出现许多新颖、创造性的工作。本文梳理了ICCV上13个最令人印象深刻的项目,一起来看。 将手机拍摄的照片质量提升到数码单反水平 📷 不要让手机的传感器和镜头小这个劣势妨碍了伟大的摄影作品。ICCV的这篇论文研究了在几个不同平台上拍摄的相同场景的照片,并对它们之间的差异进行建模。研究者提出一种算法,不仅
AI 科技评论按:生成式对抗性网络 GANs 是近几年最热门的机器学习范式之一,它“图像生成效果好”和“训练困难、效果不稳定”的特点吸引了许许多多研究者付出精力进行 GANs 的研究。虽然它在大尺寸图像和图像逼真程度方面的表现仍然有限,但仍然是目前最好的图像生成范式。 📷 所以当看到如此逼真的高分辨率生成图像的时候,我们几乎要以为这是 GANs 的新突破。虽然图中还有一些扭曲和不自然,但是细节和物体的结构已经比较完善。然而定睛一看,这样的效果居然是一个单向的端到端网络完成的! 介绍这项成果的论
机器之心专栏 作者:达摩院 随着数字文化产业的蓬勃发展,人工智能技术开始广泛应用于图像编辑和美化领域。其中,人像美肤无疑是应用最广、需求最大的技术之一。传统美颜算法利用基于滤波的图像编辑技术,实现了自动化的磨皮去瑕疵效果,在社交、直播等场景取得了广泛的应用。 然而,在门槛较高的专业摄影行业,由于对图像分辨率以及质量标准的较高要求,人工修图师还是作为人像美肤修图的主要生产力,完成包括匀肤、去瑕疵、美白等一系列工作。通常,一位专业修图师对一张高清人像进行美肤操作的平均处理时间为 1-2 分钟,在精度要求更高的广
【导读】今天为大家介绍机器学习、深度学习中一些优秀、有意思的 Python 库,以及这些库的 Code 实践教程。涉及到的理论与学术内容会附上相应的论文与博客,方便大家参考学习。
Segmentation.X - Papers and Benchmarks about semantic segmentation, instance segmentation, panoptic segmentation and video segmentation
这5年里深度学习领域最亮的崽(仔)就是GAN。GAN具备非常广泛的应用场景,目前抖音里面生成人物卡通头像,人脸互换以及自动驾驶中通过传感器采集的数据生成逼真的图像数据,用于仿真测试等。 学习和掌握GAN,论文是必不可少的部分。前沿论文能够帮助大家快速了解领域内新的技术、算法、方向。 下面是给大家分享5月最新30篇GAN论文。 01.A deep learning approach to halo merger tree construction[2022-05-31] 02.Adversarial synt
这篇文章有4篇论文速递,都是CVPR 2018论文,包括zero-shot learning、图像合成和图像转换等方向。
一、说话人驱动(talking head) 1、Audio-Driven Emotional Video Portraits 尽管此前一些方法在基于音频驱动的说话人脸生成方面已取得不错的进展,但大多数
生成模型一直是机器学习和计算机视觉领域的重要研究方向。以生成对抗网络(GANs)和变分自编码器(VAEs)等为代表的深度生成模型已经成为当前人工智能研究的热点问题和重要前沿方向。目前的各种深度生成模型都各有其优点和缺点,比如生成对抗网络的训练稳定性和模式崩溃(mode collapse)问题等,变分自编码器生成图像比较模糊等。针对这些问题,我们提出了一种新的生成模型——自省变分自编码器,用于实现稳定训练和生成高分辨率真实图像。
RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation CVPR2017 https://github.com/guosheng/refinenet
CVPR2018上关于目标检测(object detection)的论文比去年要多很多,而且大部分都有亮点。从其中挑了几篇非常有意思的文章,特来分享,每篇文章都有详细的博客笔记,可以点击链接阅读。
1、Cascaded RCNN 论文:Cascade R-CNN Delving into High Quality Object Detection 论文链接:https://arxiv.org/abs/1712.00726 代码链接:https://github.com/zhaoweicai/cascade-rcnn 详细内容请移步:Cascade RCNN算法笔记
来源自 商汤科技 量子位 出品 | 公众号 QbitAI 本月22-29日,是两年一度的国际计算机视觉大会(ICCV)召开的日子。 于往届ICCV相比,本届 ICCV堪称火爆。据组委会统计,ICCV 2017共收到2143篇论文投稿,其中621篇被选为大会论文,录用比例29%。其中包含45篇口头报告(Oral)和56篇亮点报告(Spotlight),参会人数预计将超过3000人。 📷 本届ICCV中,商汤科技与中国香港中大-商汤科技联合实验室共发表了20篇论文,其中包括3篇Oral (录取
人脸图像是整个图像领域里面研究人员最多,应用最广的一个方向。GAN作为时下最新兴的深度学习模型,在人脸图像领域里已经颇有建树,今天咱们就聊聊GAN对人脸图像算法的一些主要影响。
虽然这里说的都是图像,但其实视频也属于计算机视觉的研究对象,所以还有视频分类、检测、生成,以及追踪,但篇幅的关系,以及目前研究工作方向也集中于图像,暂时就不介绍视频方面应用的内容。
CVPR 2018还有3个月就开始了,目前已经公布了所有收录论文名单,为了能够让大家更深刻了解CVPR的论文,我们进行了一些CVPR 2018论文解读的整理,后续还会持续更新。
看到好东西,怎么能不分享呢。 第一次在知乎翻译,由于水平有限(不是谦虚的那种有限,是真的有限),有不准确的地方还望包涵,最重要的是,还望大佬们多多指正! Background To the best of our knowledge, this is the first list of deep learning papers on medical applications. There are couple of lists for deep learning papers in general, o
之前通过三篇文章简单介绍了机器学习常用的几种经典算法,当然也包括了目前很火的 CNNs 算法了:
Efficient and Robust Deep Networks for Semantic Segmentation
上次我们简单介绍了OpenCV及计算机视觉的定义,今天我们继续说说基础知识。今天主要讲Python和图像基本处理。
Reading Car License Plates Using Deep Convolutional Neural Networks and LSTMs
📷 Teaser 本文作者均来自 Pinscreen,即杀马特🧑🏻🎤教授黎颢创办的专注于真实感虚拟角色生成的人工智能公司。文章提出了一种从任意人脸图片,生成 normalized avatar (即中性表情、标准光照下的3D人脸虚拟化身)。 论文:arxiv.org/abs/2106.11423 Method 文章的流程如下图所示,主要包含两个阶段: Inference Stage:输入一张人脸图片,首先使用预训练的人脸识别网络 FaceNet 提取人脸面部特征,然后该面部特征通过 Identity Re
允中 编译整理 量子位 出品 | 公众号 QbitAI 自从Goodfellow2014年提出这个想法之后,生成对抗网络(GAN)就成了深度学习领域内最火的一个概念,包括LeCun在内的许多学者都认为,GAN的出现将会大大推进AI向无监督学习发展的进程。 于是,研究GAN就成了学术圈里的一股风潮,几乎每周,都有关于GAN的全新论文发表。而学者们不仅热衷于研究GAN,还热衷于给自己研究的GAN起名,比如什么3D-GAN、BEGAN、iGAN、S²GAN……千奇百怪、应有尽有。 今天,量子位决定带大家逛逛GAN
https://github.com/hanzhanggit/StackGAN-v2
欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
https://arxiv.org/pdf/2009.14798.pdf
本文主要推荐一些生成对抗网络(GAN,generative adversarial networks)相关的值得精读的论文,主要涉及GAN的优化,图像翻译,视频预测三个领域,可以作为GAN的学习顺序进行阅读。
本文主要介绍了人群分析和人群计数的开源代码、数据库以及算法模型,包括基于深度学习的人群计数、基于CNN的物体计数、基于多任务学习的人群计数、基于卷积神经网络的密度估计等,还介绍了一些人群分析和人群计数的数据库和工具。
原文链接:https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/
本文提出了一种使用级联卷积网络的人脸检测方法,该方法通过多个卷积网络提取人脸候选区域,并进行去虚警和矩形框坐标回归,同时使用数据路由层来改变后续网络组件的数据样本。实验结果表明,该方法在速度和准确性方面均优于传统卷积神经网络。
1 Single Image Reflection Removal through Cascaded Refinement 本文尝试解决从单个图像中去除反射的问题(通过玻璃表面导致),这是不适定的、具
下述论文已分类打包好!共116篇,事实上仍有一些GAN论文未被包含入内,比如笔者发推文时,又看到一篇《Rotate-and-Render: Unsupervised Photorealistic Face Rotationfrom Single-View Images》……可见GAN在CVPR 2020的火爆程度。
最近看到一个非常赞的OCR相关资源,收集从2015.10.9到现在的一些OCR文献,github项目和博客资源等
【新智元导读】这是一份生成对抗(神经)网络的重要论文以及其他资源的列表,由 Holger Caesar 整理,包括重要的 workshops,教程和博客,按主题分类的重要论文,视频,代码等,值得收藏学习。 目录 Workshops 教程 & 博客 论文 理论 & 机器学习 视觉应用 其他应用 幽默 视频 代码 Workshops NIP 2016 对抗训练 Workshop 【网页】https://sites.google.com/site/nips2016adversari
【导读】近日,大连理工大学的学生ArcherFMY针对近几年深度学习在计算机视觉领域的应用提供了一个非常详细的阅读清单。如果你在深度学习领域是一个新手,你可以会想知道如何从哪篇论文开始阅读学习,如果你是从事计算机视觉领域,这一份详细的paper list,包括显著目标检测、视觉目标跟踪、目标检测、目标定位、语义分割和场景解析、边缘检测、姿态估计、超分辨率、图像分类,建议你收藏,仔细学习。本文转载已得到作者授权。 Github 地址: https://github.com/ArcherFMY/Paper_Re
选自Deephunt 作者:Avinash Hindupur 参与:黄小天、蒋思源 生成对抗网络(GAN)是近段时间以来最受研究者关注的机器学习方法之一,深度学习泰斗 Yann LeCun 就曾多次谈到 这种机器学习理念的巨大价值和未来前景。而各类 GAN 的变体也层出不穷,近日机器之心也报道过生成对抗网络的最新进展与论文集,而本文更注重于从 GAN 及其变体的角度对其论文做一个完整的梳理。 项目地址:https://deephunt.in/the-gan-zoo-79597dc8c347 每一周都会有关于
Face Alignment by Explicit Shape Regression CVPR2012 https://github.com/soundsilence/FaceAlignment
夜晚是如此的安静,但是依然有很多挑灯夜战的你、他、她......无论在哪座城市,都会有忙碌的人在灯光下依然勤奋努力的工作,希望分享的这首小曲可以缓解夜间工作的疲惫,更希望眺望远处的朦胧灯火,依然是一个美好的心情!现在的我也是在暖黄色的灯光下书写今天分享的趣文,希望阅读到的朋友可以放下手头工作,小息片刻来欣赏今天的好文~
【导读】CVPR 2019 接收论文列表已经出来了,但只是一些索引号,所以并没有完整的论文合集。CVer 最近也在整理收集,今天一文涵盖10篇 CVPR 2019 论文速递,内容涵盖全景分割、实例分割和姿态估计等方向。
【导读】专知内容组整理了最近七篇变分自编码器(Variational Autoencoders)相关文章,为大家进行介绍,欢迎查看! 1. Generating Thematic Chinese Poetry using Conditional Variational Autoencoders with Hybrid Decoders(利用带混合解码器的条件变分自编码器生成主题汉语诗歌) ---- ---- 作者:Xiaopeng Yang,Xiaowen Lin,Shunda Suo,Ming Li 摘要
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。
这项工作提出一种新的逆映射方案,通过引入迭代细化机制,扩展当前基于编码器的逆映射方法。与当前最先进的方法相比,基于残差的编码器 ReStyle 提高了准确性,推理时间的增加可以忽略不计。https://yuval-alaluf.github.io/restyle-encoder/
【1】 Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation Disp R-CNN:基于形状先验引导的立体3D对象检测实例视差估计
【导读】专知内容组整理了最近八篇生成对抗网络(Generative Adversarial Networks )相关文章,为大家进行介绍,欢迎查看! 1.Correlated discrete data generation using adversarial training(使用对抗训练的相关离散数据生成) ---- ---- 作者:Shreyas Patel,Ashutosh Kakadiya,Maitrey Mehta,Raj Derasari,Rahul Patel,Ratnik Gandhi 机
本文介绍了一种用于从语义分割图生成逼真街景图像的框架,该框架能够同时捕捉低级细节和高级语义信息。该框架使用了一种基于生成对抗网络(GAN)的生成器,该生成器可以学习如何从语义分割图中合成逼真的图像。该框架还使用了一种评估指标,该指标可以衡量生成的图像与真实图像之间的差异。实验结果表明,该框架可以生成与真实图像非常相似的逼真街景图像。
领取专属 10元无门槛券
手把手带您无忧上云