3DTown:听说你还在吭哧吭哧建模?OUT啦!
最近啊,科技圈炸锅了!普林斯顿大学、哥伦比亚大学,还有一家叫Cyberever AI的公司,他们搞了个叫3DTown的框架,说白了,就是专门帮你建3D城镇的!厉害在哪儿?你只要给它一张城镇的俯视图,它就能给你“duang”的一下,生成一个栩栩如生的3D城镇场景!而且!它还不用训练!省了你吭哧吭哧找数据、训练模型的时间,简直懒人福音!
传统3D建模:费钱费力,简直就是个坑!
以前,搞3D场景,那是土豪玩家的游戏。为啥?
设备贵到吐血:
几十万、上百万的3D扫描仪,普通人根本摸不着!
数据多到崩溃:
得从各个角度拍拍拍,不然模型全是盲区。
人工建模累成狗:
建模师熬夜加班,头发都掉光了!
AI虽然进步了不少,但要生成复杂的3D场景,还是经常翻车:
结构歪七扭八:
建筑像喝醉了酒一样,东倒西歪。
布局胡编乱造:
和原图完全不一样,AI的想象力太丰富了!
模型粗糙不堪:
细节模糊,材质贴图惨不忍睹。
3DTown:一张图,秒变城!
3DTown就是来拯救世界的!它的核心思想是,用最少的输入(一张俯视图),生成最棒的3D场景。比如,你随便找张雪镇的照片,或者自己画个荷兰小镇的草图,丢给3DTown,它就能给你变出真假难辨的3D模型!
它怎么做到的?秘诀就在两大“黑科技”:
区域生成:化整为零,各个击破!
直接让AI一口气生成整个3D场景?太难了!3DTown聪明的地方在于,它把俯视图分成 overlapping(重叠)的区域,然后单独生成每个区域的3D模型。就像把拼图分成小块,AI集中精力拼好每一块。好处多多:
分辨率更高,细节更多:
每个区域都是独立的,AI能火力全开,生成高分辨率的模型。
图像和3D更对齐:
AI更了解局部细节,生成的模型更符合图片。
空间感知3D修复:让“碎片”完美合体!
分成小块生成虽然好,但怎么把这些“碎片”拼成一个完整的整体呢?这就是3DTown的第二个“黑科技”——空间感知3D修复!
它会先根据图片,估算出粗略的3D结构,给AI画个“草稿”。然后,用蒙版矫正流(masked rectified flow)去填充缺失的部分,保证整体结构的连贯性。就像专业的“3D瓦工”,把积木之间的缝隙填得天衣无缝!
不用训练,效果杠杠的!
更厉害的是,3DTown不用训练!它直接用预训练好的3D对象生成器(比如Trellis),然后用区域生成和空间修复,合成复杂的3D场景。就像顶级厨师,直接用市场上最好的食材,做出米其林大餐!
实验证明,3DTown实力超群,各项指标都超过了其他模型:
几何质量:
无论是人类还是GPT-4o评分,3DTown生成的模型都更精细、更真实!
布局连贯性:
生成的场景和原图完美对齐,不会“跑偏”。
纹理保真度:
模型表面的纹理逼真、一致,就像真实世界一样。
雪镇、沙漠小镇、荷兰小镇,3DTown都能轻松驾驭,生成高度连贯的3D场景!其他模型要么结构太简单,要么布局扭曲,要么物体重复。
3DTown的成功秘诀:拆解与缝合!
这项技术再次证明,“空间分解”和“先验引导修复”对于将2D图像变成高质量3D场景有多重要。
区域分解让AI能在局部发挥优势,避免处理整个复杂场景时力不从心。地标引导就像“定海神针”,保证了场景的整体结构和关键物体的连续性,防止“跑偏”。
这项技术对游戏开发、电影制作、元宇宙、机器人仿真训练等领域都有巨大潜力。想象一下,未来我们只需要一张草图,就能快速生成一个可以探索的3D世界!
小小吐槽,未来可期!
当然,3DTown也有不足:
它依赖的预训练3D生成器是基于单个物体训练的,所以可能会出现重复的立面或不真实的屋顶形状。
它对初始3D结构的估计有时会有“漏洞”,导致表面空洞或过于平滑。
但这些都可以优化,比如结合多视角数据、引入语义先验、场景级别的微调等。
3DTown的出现,是3D内容生成领域的一个里程碑!它以一种巧妙、高效且无需训练的方式,为我们打开了从2D到3D快速构建复杂场景的大门。未来,我们每个人都能成为3D世界的“创世神”,一张图就能打造理想之城!
领取专属 10元无门槛券
私享最新 技术干货