始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在招募 | 新一期开源共创志愿者计划,欢迎加入共同成长。wisemodel社区算力平台上线,价格实惠,灵活方便,支持在线微调训练模型,及模型在线体验和专属API服务,并全面支持ollama在线运行。
想过用一句话“拍摄”地球吗?Text2Earth打破传统AI绘画局限,专注攻克高难度遥感场景生成!无论是“西侧森林环抱、东侧农田广袤的沿海城市”,还是“云层笼罩的热带岛屿”“雪覆高海拔山地”,只需输入地理场景描述,它就能即刻输出高精度遥感图像,精准还原地形结构、地理特征与语义信息。Text2Earth已上线始智AI-wisemodel开源社区,欢迎大家前去体验。
模型地址
https://wisemodel.cn/models/lcybuaa/Text2Earth
01.
模型亮点
在遥感影像生成领域,Text2Earth以突破性技术重塑行业格局,其核心优势源于四大关键创新点的深度融合与协同发力。这些创新不仅打破了传统技术瓶颈,更构建起从数据基石到功能拓展的完整技术生态,推动遥感AI应用迈向全新高度。
1、全球最大规模的遥感图文数据集:构建了包含超1000 万图文对的 Git-10M 数据集,覆盖广泛的地理场景和丰富的地理空间元数据。
2、创新的分辨率引导机制:引入分辨率引导机制,将图像的分辨率信息编码并融入到每一步的去噪过程,确保生成的图像符合指定的分辨率需求。
3、动态条件适应策略:允许模型在训练和推理过程中处理条件输入的缺失,增强了生成的灵活性和鲁棒性。
4、多任务能力:在多种任务上具有良好的泛化性和灵活性,涵盖Zero-shot遥感图像生成、多分辨率图像生成、无边界遥感超大场景生成、遥感图像编辑、跨模态图像生成等。
02.
性能提升
为验证Text2Earth技术优越性,研究团队基于行业权威基准数据集RSICD,采用多项核心指标对模型进行严格测试。结果显示,Text2Earth在生成质量、语义匹配等关键维度实现突破性提升,全面超越同类技术,充分彰显其在遥感AI领域的领先地位。在基准数据集RSICD上的评估中,Text2Earth模型实现了:
FID 分数降低 26.23:作为衡量生成图像质量与真实图像相似度的核心指标,FID值的显著下降意味着Text2Earth生成的遥感图像不仅更贴近真实地理场景,且在细节纹理、地物分布等方面呈现出更高的多样性,有效解决了传统模型易出现的图像模糊、重复等问题,这意味着生成图像的质量和多样性显著提升。
Zero-shot Cls-OA 提高 20.95%:该指标聚焦图像与文本描述的语义一致性。Text2Earth大幅提升了图像内容与文字指令的匹配精度,确保用户输入的文本需求能精准转化为对应地理场景的可视化成果,为地理信息智能分析与决策提供了可靠支持。
Text2Earth不仅以突破性技术革新了遥感影像生成的底层逻辑,更将复杂的AI能力转化为开发者友好的极简操作。Text2Earth成功实现三行代码,加载地球想象力引擎,让开发者只需几行指令,即可调用千万级数据集训练的模型、分辨率自适应系统与多模态生成能力,将文字描述瞬间转化为高精度遥感影像。
from diffusers import StableDiffusionPipelinepipe = StableDiffusionPipeline.from_pretrained("lcybuaa/Text2Earth",custom_pipeline="pipeline_text2earth_diffusion").to("cuda")image = pipe("Seven green circular farmlands are neatly arranged on the ground",height=256, width=256).images[0]
03.
效果展示
Text2Earth实现了遥感影像生成领域的多元应用突破。通过实际效果展示,其在多个关键场景展现出强大的处理能力与灵活性,无论是从文本到图像的直接生成,还是对现有图像的优化与拓展,均能高效满足多样化需求,为地理信息分析、资源监测等领域提供了创新解决方案。具体包括:
多地理特征的零样本图像生成:
多分辨率可控图像生成:
地球图像场景编辑:
无边界遥感场景:
跨模态和图像增强任务:
编辑丨赵雅鑫
领取专属 10元无门槛券
私享最新 技术干货