翻译&整理 | 杨阳 出品 | AI科技大本营 OpenAI的Point-E是3D模型的DALL-E,这个速度极快的系统可以从文本中生成3D点云。 在推出针对文本和图像的生成人工智能模型之后,OpenAI现在展示了下一步可能出现的东西:一个从文本到三维模型的生成器。通过文本描述,Point-E生成了3D点云,可以作为虚拟环境中的模型。除OpenAI之外,已经有其他用于3D生成的工智能模型,如谷歌的Dreamfusion或Nvidia的Magic3D。 Point-E生成展示 然而,据说OpenAI的开源
来源:AI科技大本营本文约800字,建议阅读5分钟OpenAI的Point-E是3D模型的DALL-E,这个速度极快的系统可以从文本中生成3D点云。 在推出针对文本和图像的生成人工智能模型之后,OpenAI现在展示了下一步可能出现的东西:一个从文本到三维模型的生成器。通过文本描述,Point-E生成了3D点云,可以作为虚拟环境中的模型。除OpenAI之外,已经有其他用于3D生成的工智能模型,如谷歌的Dreamfusion或Nvidia的Magic3D。 Point-E生成展示 然而,据说OpenAI的开源
在本文中,作者提出了VX2TEXT,一个用于从“视频+X”(X代表文本、语音或音频等)的多模态输入来生成文本 的框架。为了利用Transformer网络,每个模态首先由可学习的 tokenizer转换为一组语言embedding。
Stable Diffusion 模型是一种生成式模型,可以从噪声中生成逼真的图像。它由 Google AI 研究人员于 2022 年提出,并迅速成为图像生成领域的热门模型。
本文“Face-To-Face Translation”是指的要建立这么一个系统:它能够自动地将说a语言的人的视频翻译成目标语言B,并实现唇同步。简单来说就是:视频中有一个人说话,将这个人说的英语实时的翻译成中文并且将说英语的嘴型也通过图像的方法翻译成中文的嘴型。
今天介绍苏黎世联邦理工大学Gisbert Schneider团队在nature machine intelligence 2020上发表的论文,该论文利用分子语言模型,结合三种优化方法,可以用少量分子作为数据集训练出一个分子生成模型。
当前一个显著的趋势是致力于构建更大更复杂的模型,它们拥有数百/数千亿个参数,能够生成令人印象深刻的语言输出。
标题:Multi-Concept Customization of Text-to-Image Diffusion
无监督图像到图像的翻译是计算机视觉中一个重要且具有挑战性的问题。给定源域中的图像,目标是学习目标域中相应图像的条件分布,而不需要看到任何相应图像对的示例。虽然这种条件分布本质上是多模式的,但现有的方法过于简化了假设,将其建模为确定性的一对一映射。因此,它们无法从给定的源域图像生成不同的输出。为了解决这一限制,我们提出了一种多模式无监督图像到图像翻译(MUNIT)框架。我们假设图像表示可以分解为域不变的内容代码和捕获域特定属性的样式编码。为了将图像翻译到另一个域,我们将其内容编码与从目标域的样式空间采样的随机样式代码重新组合。我们分析了所提出的框架,并建立了几个理论结果。与最先进的方法进行比较的大量实验进一步证明了所提出的框架的优势。此外,我们的框架允许用户通过提供示例风格图像来控制翻译输出的风格。
基于生成对抗性网络(GAN)的数据扩充用于提高目标检测模型的性能。它包括两个阶段:训练GAN生成器以学习小目标数据集的分布,以及从训练的生成器中采样数据以提高模型性能。在本文中,我们提出了一种流程化的模型,称为鲁棒数据增强GAN(RDAGAN),旨在增强用于目标检测的小型数据集。首先,将干净的图像和包含来自不同域的图像的小数据集输入RDAGAN,然后RDAGAN生成与输入数据集中的图像相似的图像。然后,将图像生成任务划分为两个网络:目标生成网络和图像翻译网络。目标生成网络生成位于输入数据集的边界框内的目标的图像,并且图像转换网络将这些图像与干净的图像合并。 定量实验证实,生成的图像提高了YOLOv5模型的火灾检测性能。对比评价表明,RDAGAN能够保持输入图像的背景信息,定位目标生成位置。此外,消融研究表明,RDAGAN中包括的所有组件和物体都发挥着关键作用。
基于模型的方法会将含有缺失值的变量作为预测目标 将数据集中其他变量或其子集作为输入变量,通过变量的非缺失值构造训练集,训练分类或回归模型 使用构建的模型来预测相应变量的缺失值 一、线性回归 是一
今天给大家介绍巴黎东大和索邦大学的Asma Nouira等人在AAAI Spring Symposium 2019上分享的文章“CrystalGAN: Learning to Discover Crystallographic Structures with Generative Adversarial Networks”。作者在文章中提出使用生成对抗网络(generative adversarial networks,GAN)可以高效地生成新的数据,因此可以应用于生成新的晶体结构数据。但在材料科学领域,需要生成相对于样本复杂度更高阶的数据,一般的生成对抗网络难以满足这一要求。本文提出的CrystalGan可以生成更高复杂度的新的稳定的晶体结构。本文提出的这一种高效的方法在新型氢化物发现等实际问题中可能会有比较深入的应用。
选自arxiv 作者:Hang Zhao、Chuang Gan、Andrew Rouditchenko、Carl Vondrick Josh McDermott、Antonio Torralba 机器之心编译 参与:刘晓坤、李泽南 相比单模态信息,多模态信息之间的关联性能带来很多有价值的额外信息。在本文中,MIT 的研究员提出了 PixelPlayer,通过在图像和声音的自然同时性提取监督信息,以无监督的方式实现了对视频的像素级声源定位。该系统有很大的潜在应用价值,例如促进声音识别,以及特定目标的音量调整
论文地址:https://arxiv.org/pdf/2303.01047.pdf
今天给大家介绍一篇佐治亚理工学院Tianfan Fu等人发表在AAAI 2021上的文章“MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization”。分子优化促进药物发现,其目标是产生新的有效分子,使药物特性最大化,同时保持与输入分子的相似性。现有的生成模型和强化学习方法在同时优化多种药物属性方面仍面临一定困难。为此,本文提出多约束分子采样框架—MIMOSA,使用输入分子作为初始采样框架,并从目标分布中采样分子。MIMOSA首先预先训练两个属性不可知图神经网络(GNN),分别用于分子拓扑和子结构类型预测,其中子结构可以是原子或单环。MIMOSA用GNN进行迭代预测,并且采用三种基本的子结构操作(添加、替换、删除)来生成新的分子和相关的权重。权重可以编码多个约束,包括相似性约束和药物属性约束,在此基础上选择有前途的分子进行下一次预测。MIMOSA能够灵活地对多种属性和相似性约束进行编码,且高效地生成满足各种属性约束的新分子,在成功率方面比最佳基线改进高达49.6%。
这些图像中的所有物体和动物都是由称为生成对抗网络(GAN)的计算机视觉模型生成的! 这是目前最流行的深度学习分支之一。 这当然有助于激发我们隐藏的创造力!
论文: Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection
欢迎大家来到《知识星球》专栏,在GAN刚刚诞生的时候,的确只是用于生成图像造造假,做做数据增强,但是后来研究人员发现对抗思想是一个非常好的东西,几乎可以用于所有领域,今天介绍几个GAN在经典计算机视觉问题中进行辅助的案例。
通用语言理解评估基准(GLUE)是用于评估和分析多种已有自然语言理解任务的模型性能的工具,模型基于在所有任务的平均准确率进行评估。WNLI(Winograd 自然语言推理)数据集是是 GLUE 中的一个数据集,它是来自(Levesque et al., 2011)的小型自然语言推理数据集。
计算机视觉(Computer Vision,CV)是一门研究如何使机器“会看”的科学。1963年来自MIT的Larry Roberts发表了该领域第一篇博士论文《Machine Perception of Three-Dimensional Solids》,标志着CV作为一门新兴人工智能方向研究的开始。在发展了50多年后的今天,我们就来聊聊最近让计算机视觉拥有“无中生有”能力的几个有趣尝试: 超分辨率重建; 图像着色; 看图说话; 人像复原; 图像自动生成。 可以看出,这五个尝试层层递进,难度
作者:魏秀参,南京大学计算机系机器学习与数据挖掘所(LAMDA)博士生。曾在国际顶级期刊和会议发表学术论文,其Must Know Tipss in Deep Neural Networks受邀发布于国际知名数据挖掘论坛KDnuggets和Data Science Central。 本文选自《程序员》,更多精彩文章请订阅2016年《程序员》。 计算机视觉(Computer Vision,CV)是一门研究如何使机器“会看”的科学。1963年来自MIT的Larry Roberts发表了该领域第一篇博士论文
来源:DeepHub IMBA 本文约1800字,建议阅读5分钟 本文解释了这两种模型类型之间的区别,并讨论了每种方法的优缺点。 分类模型可以分为两大类:生成式模型与辨别式模型。本文解释了这两种模型类型之间的区别,并讨论了每种方法的优缺点。 辨别式模型 辨别式模型是一种能够学习输入数据和输出标签之间关系的模型,它通过学习输入数据的特征来预测输出标签。在分类问题中,我们的目标是将每个输入向量x分配给标签y。判别模型试图直接学习将输入向量映射到标签的函数f(x)。这些模型可以进一步分为两个子类型: 分类器试图
他们生成的名人头部动画包括玛丽莲·梦露、爱因斯坦、蒙娜丽莎以及 Wu Tang Clan 的 RZA 等。
由于为语义分割注释像素级标签非常费力,因此利用合成数据是一个很有吸引力的解决方案。然而,由于合成域与真实域之间存在域间的差异,用合成数据训练的模型很难推广到真实数据中去。在本文中,我们考虑到两个域之间的根本区别作为纹理,提出了一种适应目标域纹理的方法。首先,我们利用风格转换算法对合成图像的纹理进行多样性处理。生成图像的各种纹理防止分割模型过度拟合到一个特定的(合成)纹理。然后通过自训练对模型进行微调,得到对目标纹理的直接监督。我们的结果达到了最先进的性能,我们通过大量的实验分析了在程式化数据集上训练的模型的属性。
论文标题:Syntax-driven Iterative Expansion Language Modelsfor Controllable Text Generation 论文出处:ACL2020 原文链接:https://arxiv.org/abs/2004.02211v1 转载请注明出处:学习ML的皮皮虾
来源:新智元 极市平台本文约3800字,建议阅读5分钟本文总结了2022年发布的21个生成式模型,一次看明白生成式模型的发展脉络! 过去的两年时间里,AI界的大型生成模型发布呈井喷之势,尤其是Stable Diffusion开源和ChatGPT开放接口后,更加激发了业界对生成式模型的热情。 但生成式模型种类繁多,发布速度也非常快,稍不留神就有可能错过了sota。 最近,来自西班牙科米利亚斯主教大学的研究人员全面回顾了各个领域内AI的最新进展,将生成式模型按照任务模态、领域分为了九大类,并总结了2022年发
---- 新智元报道 编辑:LRS 【新智元导读】一次学完所有生成式模型! 过去的两年时间里,AI界的大型生成模型发布呈井喷之势,尤其是Stable Diffusion开源和ChatGPT开放接口后,更加激发了业界对生成式模型的热情。 但生成式模型种类繁多,发布速度也非常快,稍不留神就有可能错过了sota 最近,来自西班牙科米利亚斯主教大学的研究人员全面回顾了各个领域内AI的最新进展,将生成式模型按照任务模态、领域分为了九大类,并总结了2022年发布的21个生成式模型,一次看明白生成式模型的发展
本次主要给大家介绍两篇文章。第一篇文章主要讲的是会话响应生成,其主要针对的是当前神经网络对话系统倾向于在语料库中生成响应的问题,这样不利于会话响应的多样性。第二篇文章主要针对的是模型会话一致检测的问题,怎么才能评估呢?作者提出一种自动在数据集提取实例进行评估的方法。
设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。
论文:Multimodal Unsupervised Image-to-Image Translation
Faster R-CNN 是一种用于对象检测的深度神经网络架构。它是一个多任务学习的网络,在单个神经网络中同时学习目标检测和特征提取。 Faster R-CNN的网络架构包括三个部分:
Petuum 专栏 作者:Luona Yang、Xiaodan Liang、Eric Xing 机器之心编译 参与:Panda 不久之前,机器之心推出了介绍 AI 创业公司 Petuum 在医疗领域的一系列研发成果的文集。而除了医疗领域,Petuum 也在自动驾驶等多个领域启动了研发项目。本系列我们将介绍 Petuum 在自动驾驶研发方向的一系列成果。我们在此以[用于端到端公路驾驶的无监督真实域到虚拟域的域统一]这一开创性论文来开始这一系列。在获取用于训练自动驾驶系统的数据时,常见的做法是使用对抗生成模型(
甲状腺肿瘤可大致分为乳头状癌或滤泡型肿瘤。典型甲状腺乳头状癌(PTC-c)为浸润性,常转移到淋巴结。由于观察者间的高变异性和观察到的行为异质性,各种滤泡模式肿瘤的定义最近受到了关注。
生成对抗网络(GANs)是一种深度学习模型,它由两部分组成:生成器(Generator)和判别器(Discriminator)。
机器之心报道 机器之心编辑部 不再需要任何 3D 或 4D 数据,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。 仅输入一行文本,就能生成 3D 动态场景? 没错,已经有研究者做到了。可以看出来,目前的生成效果还处于初级阶段,只能生成一些简单的对象。不过这种「一步到位」的方法仍然引起了大量研究者的关注: 在最近的一篇论文中,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Vide
标题:IndoorSim-to-OutdoorReal:在没有任何户外经验的情况下学习在户外导航
计算机视觉 (Computer Vision, CV) 是一门研究如何使机器“看”的科学。1963年来自MIT的Larry Roberts发表的该领域第一篇博士论文“Machine Perception of Three-Dimensional Solids”(http://t.cn/RYiIO9N),标志着CV作为一门新兴人工智能方向研究的开始。 在发展了50多年后的今天,我们就来聊聊最近让计算机视觉拥有「无中生有」能力的几个有趣尝试:1)超分辨率重建;2)图像着色;3)看图说话;4)人像复原;5)图像自
Salesforce最新论文提出了一个可处理多项自然语言处理的通用模型:decaNLP,处理机器翻译、文本分类等NLP任务统统不在话下!
每天给你送来NLP技术干货! ---- ©作者 | 回亭风 单位 | 京邮电大学 研究方向 | 自然语言理解 编辑 | PaperWeekly 论文标题: Few-shot Named Entity Recognition with Self-describing Networks 收录会议: ACL 2022 论文链接: https://arxiv.org/abs/2203.12252 代码链接: https://github.com/chen700564/sdnet 小样本 NER 需要从很少的实例
2022年6月7日,来自多伦多大学计算机科学系的Daniel Flam-Shepherd等人在Nat Commun发表研究工作,研究为分子的深度生成模型引入了三个复杂的建模任务来测试化学语言模型的能力,结果显示语言模型是可以学习任何复杂分子分布的非常强大的生成模型。
今天分享一篇发表在MICCAI 2019上的论文:Dual Adaptive Pyramid Network for Cross-Stain Histopathology Image Segmentation (原文链接:[1])。
JoJoGAN 是一种One-Shot风格迁移模型,可让将人脸图像的风格迁移为另一种风格。
基于文本的图像生成模型效果惊艳,可以说是时下讨论最火热的AI研究领域了,内行外行都能看个热闹。
摘要:本文提出了InstantMesh,这是一个用于从单视角图像生成即时3D网格的前馈框架,具有当前非常优秀的生成质量和显著的训练可扩展性。
从DALL·E到Stable Diffusion,最近,基于AIGC的技术和应用成为业界和学界的又一宠儿。
分子优化是在输入分子X的基础上产生具有更理想性质的分子Y。目前最先进的方法是将分子划分成一组大的子结构集S,并通过迭代预测从S中选择子结构添加来产生新的分子结构。 然而,由于可用子结构S集很大,这样的迭代预测任务往往是不准确的,特别是对于训练数据中不常见的子结构。
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
选自openreview 机器之心编译 参与:机器之心编辑部 论文地址:https://openreview.net/pdf?id=S1L-hCNtl 摘要:我们研究了生成对抗的训练方法来对马尔可夫链
文本到图像的扩散模型在生成符合自然语言描述提示的逼真图像方面取得了惊人的性能。开源预训练模型(例如稳定扩散)的发布有助于这些技术的民主化。预先训练的扩散模型允许任何人创建令人惊叹的图像,而不需要大量的计算能力或长时间的训练过程。
生成对抗网络(GAN)是在给定输入的条件下生成图像的一种强大方法。输入的格式可以是图像 [9,37,16,2,29,21]、文本短语 [33,24,23,11] 以及类标签布局 [19,20,1]。大多数 GAN 实例的目标是学习一种可以将源分布中的给定样例转换为输出分布中生成的样本的映射。这主要涉及到单个目标的转换(从苹果到橙子、从马到斑马或从标签到图像等),或改变输入图像的样式和纹理(从白天到夜晚等)。但是,这些直接的以输入为中心的转换无法直观体现这样一个事实:自然图像是 3D 视觉世界中交互的多个对象组成的 2D 投影。本文探索了组合在学习函数中所起到的作用,该函数将从边缘分布(如椅子和桌子)采集到的目标不同的图像样本映射到捕获其联合分布的组合样本(桌椅)中。
领取专属 10元无门槛券
手把手带您无忧上云