卡内基梅隆大学发布了开源项目LegoGPT,这是一种能够基于文本描述自动生成实体乐高模型的新方法。在传统乐高设计领域,相关研究通常侧重于将已有的3D模型转化为乐高作品,或者仅能处理特定类别的对象,难以满足用户通过自由文本直接创建乐高设计的需求。LegoGPT则突破了这些限制,例如,当用户输入“一座带有尖塔和彩色玻璃的中世纪城堡”时,系统会首先规划城堡的整体布局,包括主体结构、城墙、塔楼和尖塔的位置及形态,然后从各种积木中挑选合适尺寸和形状进行搭建。对于彩色玻璃部分,该技术还会利用纹理和颜色生成手段,为积木赋予丰富多彩的视觉效果,最终完成一个既完整又稳定的实体乐高城堡模型。
开源地址:https://github.com/AvaLovelace1/LegoGPT/
传统的大型语言模型通常应用于文本生成和自然语言理解领域,而研究人员创新性地将其应用于预测乐高积木的摆放顺序。核心思路是将乐高设计问题转换成一个自回归的序列生成任务,通过简洁的文本格式描述每块积木的尺寸和位置。这样的转化不仅充分发挥了语言模型在序列生成上的优势,还为乐高积木设计引入了一种新颖的、以文本为基础的表达形式。
为了推动高质量模型的训练,研究团队构建了一个名为StableText2Lego的超大规模乐高设计数据集。该数据集收录了超过47,000个多样化的乐高结构,这些结构基于ShapeNetCore数据集中28,000多个独特的三维物体,涵盖21个常见类别。每个乐高设计不仅附带了详尽的文本描述,还包含用于评估其物理稳定性和可组装性的稳定性评分。
具体来说,研究人员先将ShapeNetCore中的三维网格模型转化成乐高结构,再将这些3D网格体素化到统一的20×20×20网格空间中以统一尺度。随后,采用一种分割与合并相结合的乐高化算法,生成了具体的乐高积木布局方案。
为了提升数据的质量和多样性,团队在将3D模型转换为乐高结构的过程中引入了随机因素,使得同一个3D对象能够生成多种不同的乐高设计。同时,他们采用了一种稳定性评估方法,对每个乐高结构的物理稳定性进行检测,仅保留所有积木的稳定性评分均大于零的设计。
在模型训练方面,LegoGPT是在LLaMA-3.2-1B-Instruct基础上进行微调的,具备理解文本指令并生成相应乐高设计的能力。为了进一步提升模型表现,研究团队还构建了一个专门用于指令微调的数据集,包含丰富的文本提示及对应的乐高结构样例。
每个稳定的乐高设计及其对应的描述都会被整理成一条指令,格式为:“(用户)根据{描述}创建一个乐高模型。(助手){Lego设计}。”通过这种示范,模型能够学习如何将文本描述转化为具体的乐高构造。
除了生成乐高结构,LegoGPT还具备为模型创建细致纹理和颜色的能力。它支持为每个积木块赋予详细的UV纹理或统一的色彩。对于给定的乐高模型及其网格表示,系统首先识别并剔除那些被相邻积木完全覆盖的块,以提升处理效率。随后,将剩余积木合并成一个整体网格,通过立方体投影技术生成UV映射。接着,利用一种基于文本的快速网格纹理生成工具FlashTex,根据文本提示自动创建贴图。这不仅丰富了乐高模型的视觉表现,还能确保生成的纹理与用户描述高度吻合。
LegoGPT发布后,短时间内就获得了接近1000颗星的关注,展现出广泛的应用潜力。在教育领域,教师能够借助它根据教学内容快速生成多样的乐高模型示例,帮助学生更形象地理解诸如历史建筑结构或科学实验装置等复杂知识,从而激发学习兴趣和创造力。在玩具设计行业,设计师通过LegoGPT可迅速将创意转化为乐高模型原型,显著缩短设计流程,提升效率,为市场带来更多富有创意和趣味性的乐高玩具产品。
·
欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。
·