专栏首页计算机视觉ChatPainter: Improving Text to Image Generation using Dialogue 利用对话来改善文字生成图片

ChatPainter: Improving Text to Image Generation using Dialogue 利用对话来改善文字生成图片

为了解决文字描述中含有多个目标的问题,本文提出了一个利用对话提供更多的额外信息。因为通常一个文本描述是不能够捕获图片中所有的细节信息而且模型也不能够知道图像中的目标对应了描述中的哪一个单词。

仅从效果上看是不好的,但作者实验inception score高

从数据集分析,flower 或者 cub的描述通常只是对单一目标进行详细描述,这样但前的几个任务生成的效果是很好的, 但是,在COCO数据集中,由于存在多个目标,而且在一个描述中不包含所有目标的前景背景的细节描述。

像这样的图片,相同的COCO描述,完全不同的图片,缺少更多细节描述

具体操作

提供一个对话接口,一个提问者,这能看到文本描述,一个回答者,有文本和图像。可以用到任何生成模型上。感觉实质上是丰富了文本描述从而得到更多细节的图像信息。

本篇论文将对话接口直接用于stackGan中,贡献点略少。

可尝试用于之后自己的生成模型中

在stageI 和stage II中都加入了这个额外的描述

损失函数中加入了对话描

结果如图

inception Loss

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 关于BOW详细介绍

    这篇文章属于小笔记类型奥~~ 1 特征提取 使用SIFT或者SURF生成图像特征的描述子 2 构建词典(Vocabulary) 通过上一步所有特征的提取...

    水球喵子
  • 【译】(Introduction部分)Interpretable Machine Learning. A Guide for Making Black Box Models Explainable

    这本书向你解释了怎样让机器学习模型可解释,这章中包含了一些数学公式,但是即使没有这些公式,你也应该能够理解这些方法的思想。这本书并不适合于初学机器学习的同学,如...

    水球喵子
  • failed to allocate **M (** bytes) from device: CUDA_ERROR_OUT_OF_MEMORY,错误原因及解决方案

    config = tf.ConfigProto(allow_soft_placement=True) gpu_options = tf.GPUOptions(...

    水球喵子
  • BAT 技术面试复习大纲

    面试考察的知识点多而杂,要完全掌握需要花费大量的时间和精力。但是面试中经常被问到的知识点却没有多少,你完全可以用 20% 的时间去掌握 80% 常问的知识点。在...

    乔戈里
  • CES 2018展前发布会:5G、AI、智能家电成为重要关键字

    VRPinea
  • k8s集群网络(2)-宿主内网络

    在上一篇文章中我们概括了k8s集群网络大致包含哪些方面,包括服务在网络中的负载均衡方式(iptable和ipvs),以及underlay和overlay的组网。...

    TA码字
  • JDK错误用法——throwable.getCause

    最近上线发现一个恶心的问题,就是 vert.x 把异常日志吞掉了,异常操作全部成了超时日志(系统设置有请求超时时间)。vert.x 是一个响应式框架,它是把任务...

    早安嵩骏
  • 物联网、AI:2018 改革企业IT之七大趋势!

    笔者在近期的文章之中都说过,2018 年将会是 物联网(IoT )以及 人工智能(AI) 之年,而最近 Verizon Enterprise Solution ...

    企鹅号小编
  • 3 个微信「黑暗功能」:快速定位未读消息 / 给非好友设备注 / 电脑登录后关闭手机微信 | 晓技巧

    知晓君
  • 宋宝华:Linux文件读写(BIO)波澜壮阔的一生

    网上关于BIO和块设备读写流程的文章何止千万,但是能够让你彻底读懂读明白的文章实在难找,可以说是越读越糊涂!

    Linux阅码场

扫码关注云+社区

领取腾讯云代金券