首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软ART:文本驱动多层透明图像生成新突破

图像生成领域迎来革新:微软ART技术亮相

在图像生成领域,多层图像生成技术正逐渐改变用户与生成模型的互动模式,让用户能够隔离、选择和编辑特定的图像层。 近日,微软研究人员推出一种名为 “Anonymous Region Transformer”(ART)的新技术,它能够基于全局文本提示和匿名区域布局,直接生成可变多层透明图像。

ART设计理念:图式理论与匿名区域布局

ART 的设计灵感源于 “图式理论”,通过采用匿名区域布局,使得生成模型能够自主决定哪些视觉信息与哪些文本信息对齐。 这种方法与以往的语义布局形成鲜明对比。 传统的语义布局通常需要明确的对应关系,而ART的匿名区域布局则提供了更大的灵活性。

ART核心优势:高效逐层区域裁剪机制

值得关注的是,ART 引入了一种逐层区域裁剪机制,该机制只选择与每个匿名区域相关的视觉信息,从而显著降低了注意力计算的成本。 这种方法不仅加快了生成速度,使其比全注意力方法快12倍以上,还能有效减少图层之间的冲突,从而处理50个以上不同层次的图像生成。

ART创新:高质量多层透明图像自编码器

此外,ART 还提出了一种高质量的多层透明图像自编码器,支持以联合方式直接编码和解码可变多层图像的透明度。 这一创新设计为精确控制和可扩展的层生成提供了新的可能性,从而进一步推动了交互式内容创作的发展。

ART技术亮点总结

ART可根据全局文本提示和匿名区域布局,直接生成多层透明图像。

采用逐层区域裁剪机制,显著提高了图像生成效率,比传统方法快12倍。

新型高质量自编码器支持多层透明图像的精确控制与生成,推动交互式内容创作。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OH4mfumQBJXnbIEIQDFdJ3uA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券