前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递2.20

每日学术速递2.20

作者头像
AiCharm
发布2023-05-15 16:15:32
1750
发布2023-05-15 16:15:32
举报
文章被收录于专栏:AiCharm
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Boundary Guided Mixing Trajectory for Semantic Control with Diffusion Models

标题:用于扩散模型语义控制的边界引导混合轨迹

作者:Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan

文章链接:https://arxiv.org/abs/2302.08357v1

项目代码:https://github.com/l-yezhu/cdcd

摘要:

将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。作为第一个基于优化的扩散编辑工作,我们首先通过理论和实证分析马尔可夫链中的概率和几何行为来寻求对中间高维潜在空间的更全面的理解。然后,我们建议进一步探索表征预训练 DDM 收敛的去噪轨迹中的关键步骤。最后但同样重要的是,我们进一步提出了我们的方法,通过在关键收敛步骤将去噪轨迹引导到目标边界来搜索可控操作的语义子空间边界。我们对具有不同分辨率 (64、256) 的各种 DPM 架构(DDPM、iDDPM)和数据集(CelebA、CelebA-HQ、LSUN-church、LSUN-bedroom、AFHQ-dog)进行了广泛的实验,作为经验演示。

2.Retrieval-augmented Image Captioning

标题:检索增强图像说明

作者:Rita Ramos, Desmond Elliott, Bruno Martins

文章链接:https://arxiv.org/abs/2302.08268v1

项目代码:https://github.com/ritaramo/extra

摘要:

受检索增强语言生成和预训练视觉和语言 (V&L) 编码器的启发,我们提出了一种新的图像字幕方法,它根据输入图像和从数据存储中检索到的一组字幕生成句子,而不是单独使用图像。我们模型中的编码器使用预训练的 V&L BERT 联合处理图像和检索到的说明,而解码器则处理多模式编码器表示,从检索到的说明中获取额外的文本证据。COCO 数据集上的实验结果表明,可以从这个新角度有效地制定图像字幕。我们的模型名为 EXTRA,受益于使用从训练数据集中检索到的字幕,它还可以受益于使用外部数据集而无需重新训练。消融研究表明,检索足够数量的字幕(例如,k=5)可以提高字幕质量。我们的工作有助于将预训练的 V&L 编码器用于生成任务,而不是标准分类任务。

3.Continuous Remote Sensing Image Super-Resolution based on Context Interaction in Implicit Function Space

标题:隐函数空间中基于上下文交互的连续遥感影像超分辨率

作者:Keyan Chen, Wenyuan Li, Sen Lei, Jianqi Chen, XiaoLong Jiang, Zhengxia Zou, Zhenwei Shi

文章链接:https://arxiv.org/abs/2302.08046v1

项目代码:https://github.com/KyanChen/FunSR

摘要:

尽管图像超分辨率在遥感方面取得了丰硕的应用,但由于它使用不同的模型处理不同的分辨率放大倍数,因此训练和部署起来很麻烦。因此,我们提出了一个高度适用的超分辨率框架,称为 FunSR,它通过利用隐函数空间内的上下文交互,用统一的模型解决不同的放大倍数。FunSR 由功能表示器、功能交互器和功能解析器组成。具体来说,表示器将低分辨率图像从欧几里得空间转换为多尺度像素级函数图;交互器启用具有全局依赖性的像素级函数表达式;由交互器输出参数化的解析器将具有附加属性的离散坐标转换为 RGB 值。广泛的实验结果表明,FunSR 在固定放大和连续放大设置上报告了最先进的性能,同时,由于其统一的性质,它提供了许多友好的应用程序。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.Boundary Guided Mixing Trajectory for Semantic Control with Diffusion Models
  • 2.Retrieval-augmented Image Captioning
  • 3.Continuous Remote Sensing Image Super-Resolution based on Context Interaction in Implicit Function Space
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档