首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

文生图文字模糊怎么办 | AnyText解决文生图中文字模糊问题,完成视觉文本生成和编辑

前者使用文本的字符、位置和掩码图像等输入来为文本生成或编辑生成潜在特征。后者采用OCR模型将笔划数据编码为嵌入,与来自分词器的图像描述嵌入相结合,以生成与背景无缝融合的文本。作者在训练中采用了文本控制扩散损失和文本感知损失,以进一步提高写作准确性。据作者所知,AnyText是第一个解决多语言视觉文本生成的工作。 值得一提的是,AnyText可以与社区现有的扩散模型相结合,用于准确地渲染或编辑文本。经过广泛的评估实验,作者的方法在明显程度上优于其他所有方法。 此外,作者还贡献了第一个大规模的多语言文本图像数据集AnyWord-3M,该数据集包含300万个图像-文本对,并带有多种语言的OCR注释。基于AnyWord-3M数据集,作者提出了AnyText-benchmark,用于评估视觉文本生成准确性和质量。 代码:https://github.com/tyxsspa/AnyText

06
领券