前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AnyText | 广告营销文本生成

AnyText | 广告营销文本生成

作者头像
iResearch666
发布2024-01-05 14:53:45
2511
发布2024-01-05 14:53:45
举报
文章被收录于专栏:AI算法能力提高班

⚡ AnyText | 广告营销文本生成

本文介绍AnyText文本生成和文本编辑,适合广告电商图片生成,降本增效。

  • paper https://arxiv.org/pdf/2311.03054.pdf

image-20240103180742591

1️⃣ 论文摘要

这篇论文介绍了一个名为AnyText的新型扩散模型,专注于生成准确且连贯的图像中的视觉文本。AnyText是一个基于扩散的多语言视觉文本生成和编辑模型,它通过两个主要组件来实现这一目标:辅助潜在模块(auxiliary latent module)和文本嵌入模块(text embedding module)。

  1. 辅助潜在模块:这个模块使用文本字形、位置和遮蔽图像等输入来生成用于文本生成或编辑的潜在特征。它通过将这些信息编码到潜在空间中,帮助模型在图像中生成或修改文本。
  2. 文本嵌入模块:这个模块使用光学字符识别(OCR)模型将笔画数据编码为嵌入,然后与来自分词器的图像标题嵌入融合,以生成与背景无缝融合的文本。

为了进一步提高书写准确性,AnyText在训练过程中采用了文本控制扩散损失(text-control diffusion loss)和文本感知损失(text perceptual loss)。AnyText能够生成多种语言的字符,据作者所知,这是第一个解决多语言视觉文本生成的工作。

此外,论文还贡献了一个大规模的多语言文本图像数据集AnyWord-3M,包含300万对图像-文本对,以及多种语言的OCR注释。基于AnyWord-3M数据集,作者提出了AnyText-benchmark,用于评估视觉文本生成的准确性和质量。

论文还提到,AnyText可以轻松地集成到现有的扩散模型中,以准确渲染或编辑文本。经过广泛的评估实验,AnyText在性能上显著优于其他方法。

2️⃣ 核心原理

image-20240103181013706

本文中的AnyText模型通过两个主要模块来实现准确和连贯的视觉文本生成:辅助潜在模块(auxiliary latent module)和文本嵌入模块(text embedding module)。

  1. 辅助潜在模块
    • 该模块使用文本字形(glyph)、位置(position)和遮蔽图像(masked image)作为输入,生成用于文本生成或编辑的潜在特征。
    • 文本字形(glyph)是通过使用统一的字体样式(例如“Arial Unicode”)在图像上渲染文本来生成的,这样可以简化在曲线或不规则区域准确渲染字符的过程。
    • 位置(position)信息是通过在图像上标记文本位置来生成的,这允许文本感知损失精确地定位文本区域。
    • 遮蔽图像(masked image)指示在扩散过程中应保留图像的哪些区域。在文本到图像模式下,遮蔽图像被设置为完全遮蔽,而在文本编辑模式下,遮蔽图像用于遮蔽文本区域。
  2. 文本嵌入模块
    • 该模块使用光学字符识别(OCR)模型将笔画数据编码为嵌入,这些嵌入与分词器生成的图像标题嵌入融合,以生成与背景无缝融合的文本。
    • 文本嵌入模块不按字符逐个学习,而是利用预训练的视觉模型(特别是PP-OCRv3)来提取字形信息。
    • 这些提取的嵌入随后被用作标记,输入到基于Transformer的文本编码器中,以获得融合的中间表示,然后通过交叉注意力机制映射到UNet的中间层。

通过这两个模块的结合,AnyText能够生成多种语言的文本,并且在训练过程中采用了文本控制扩散损失(text-control diffusion loss)和文本感知损失(text perceptual loss)来进一步提高书写准确性。此外,AnyText可以轻松地集成到现有的扩散模型中,赋予它们准确生成文本的能力。

3️⃣ 应用场景

这篇论文提出的AnyText模型具有广泛的应用场景,特别是在需要高质量视觉文本生成的领域。以下是一些具体的应用实例:

  1. 广告和营销:AnyText可以用于创建包含定制文本的广告图像,例如在产品包装、横幅、海报或社交媒体广告中添加吸引人的标语或品牌信息。
  2. 数字艺术和设计:艺术家和设计师可以使用AnyText来生成具有特定文本元素的数字艺术作品,或者在设计中无缝地融入文本,如在插图、图形设计和网站布局中。
  3. 电影和视频制作:在电影和视频制作中,AnyText可以用来生成带有特定文本的道具、场景背景或者后期特效,比如在电影中添加逼真的新闻标题、路牌或书籍封面。
  4. 游戏开发:游戏开发者可以使用AnyText来创建具有动态文本元素的游戏环境,如在游戏界面、游戏内物品或虚拟世界中的标识牌上添加文本。
  5. 教育和培训材料:AnyText可以帮助创建包含互动文本的教育内容,例如在电子教科书、培训手册或在线课程中添加可编辑的文本元素。
  6. 个性化礼物和纪念品:AnyText可以用于定制个性化礼物,如在照片上添加个性化的文本信息,或者在纪念品上创建独特的设计。
  7. 社交媒体和内容创作:内容创作者可以使用AnyText来制作包含定制文本的图像和视频,用于社交媒体帖子、博客文章或YouTube视频。
  8. 语言学习和文化交流:AnyText的多语言文本生成能力可以用于创建多语言学习材料,促进不同语言和文化之间的交流。
  9. 虚拟现实和增强现实:在VR和AR应用中,AnyText可以用来生成与虚拟环境互动的文本,提供沉浸式体验。
  10. 电子商务:在线零售商可以使用AnyText来创建带有动态促销信息的图像,或者在产品图片上添加客户评价和推荐。

这些应用场景展示了AnyText在不同行业中的潜力,它能够提高创意工作的效率,同时也为用户和观众提供更加丰富和个性化的视觉体验。

4️⃣ 对比实验

eval

image-20240103181047880

image-20240103181109484

5️⃣ 免费试用

  • 网站 https://github.com/tyxsspa/anytext
  • 说明

运行示例 AnyText有两种运行模式:文字生成和文字编辑,每种模式下提供了丰富的示例,选择一个,点击[Run!]即可。 请注意,运行示例前确保手绘位置区域是空的,防止影响示例结果,另外不同示例使用不同的参数(如分辨率,种子数等),如果要自行生成时,请留意参数变化,或刷新页面恢复到默认参数。 文字生成 在Prompt中输入描述提示词(支持中英文),需要生成的每一行文字用双引号包裹,然后依次手绘指定每行文字的位置,生成图片。 文字位置的绘制对成图质量很关键, 请不要画的太随意或太小,位置的数量要与文字行数量一致,每个位置的尺寸要与对应的文字行的长短或宽高尽量匹配。如果手绘(Manual-draw)不方便, 可以尝试拖框矩形(Manual-rect)或随机生成(Auto-rand)。 多行生成时,每个位置按照一定规则排序后与文字行做对应,Sort Position选项用于确定排序时优先从上到下还是从左到右。 可以在参数设置中打开Show Debug选项,在结果图像中观察文字位置和字形图。也可以勾选Revise Position选项,这样会用渲染文字的外接矩形作为修正后的位置,不过偶尔发现这样生成的文字创造性略低。 文字编辑 请上传一张待编辑的图片作为参考图(Ref),然后调整笔触大小后,在参考图上涂抹要编辑的位置,在Prompt中输入描述提示词和要修改的文字内容,生成图片。

  • 文本生成

image-20240103181136870

  • 文本编辑

image-20240103181203173


样例

image-20240103182048095

输入文本:

一张户外雪地靴的电商广告,上面写着 “双12大促!”,“立减50”,“加绒加厚”,“穿脱方便”,“温暖24小时送达”, “包邮”,高级设计感,精美构图

输出图像:

img

输入文本:

一张户外雪地靴的电商广告,上面写着 “240103大促!”,“立减5万”,“加绒加厚”,“穿脱方便”,“温暖24小时送达”, “包邮”,高级设计感,精美构图

输出图像:

img

🤝 Thank you

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 iResearch666 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1️⃣ 论文摘要
  • 2️⃣ 核心原理
  • 3️⃣ 应用场景
  • 4️⃣ 对比实验
  • 5️⃣ 免费试用
    • 样例
    • 🤝 Thank you
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档