我把设计稿扔给 Doubao-Seed-Code,它写出的前端页面让我怀疑人生
过去几年,前端开发的节奏一直在悄悄发生变化:从「组件开发 低代码 设计稿转代码工具」一路往前推进,但始终有一道过不去的坎——模型看不懂设计稿,只能看懂语言。这意味着我们依然要靠开发者手工理解 UI、拆组件、对齐结构,然后再写代码。
直到我第一次把一张 UI 设计稿丢给 Doubao-Seed-Code。那种感觉像是有人突然把你从密闭的工地里拉出来说:
这篇文章,我想与你分享的不是“模型会写代码”这种泛泛而谈,而是一次完全真实的前端开发体验:
我把实际项目里的 UI 图丢给 Doubao-Seed-Code,让它帮我生成页面、分析结构、补齐交互、修 UI bug。你会看到它作为“视觉理解编码模型”的表现,与传统 LLM 有着根本性的差异。
一、为什么前端最需要视觉理解?
前端的痛点一直很集中:
设计稿与代码结构的映射是“非语言任务”;
样式 bug 往往是“眼睛能看懂,但语言难描述”;
页面复刻过程中,“哪个元素在哪、是 flex 还是 grid”靠的是视觉判断。
传统代码模型再强,也无法跨过第一步:
这就是 Doubao-Seed-Code 与 DeepSeek、GLM、MiniMax 等 Coding 模型最大的差异:
它不是靠 MCP 调图片,也不是先把图片转文字——它原生就能看图(VLM)。
二、第一次把设计稿丢给模型,它给出的结构让我愣住了
我拿了一张公司内部项目的 UI 页面(模拟版),丢给 Doubao-Seed-Code,并且只给了一个指令:
整个对话没有任何额外提示,没有 DOM 结构、没有组件说明。它做的第一件事不是写代码,而是拆 UI 结构树:
它自动识别了:
Header 有品牌名 + 搜索栏
左侧是分组导航
中间是卡片网格
每张卡片包含标题、子项、状态点
右侧操作栏包含按钮与折叠菜单
我在 Claude Code 里看它一步步还原结构时,有一种“这才是前端该有的 AI”的感觉。传统模型的做法是瞎猜 DOM。它第一次是“看懂设计”,第二次才是“写代码”。
三、模型生成的页面代码,有种“高级感”
这是它最终生成的核心结构,节选如下:
我注意到几点:
Tailwind 的使用非常干净,没有“堆样式”
组件可拆分,这说明它理解了“信息分区”
卡片 hover、阴影、留白都非常现代
完全按照 UI 图去布局,而不是乱结构
说句实话,这已经比一些入职一年的前端写得更好了。
四、视觉理解真正的杀手级场景:修 UI bug
我又试了一件事情:
模型不仅指出了所有视觉问题,还自动给出了修复后的代码 diff。
它会说:
“右侧栏偏移,因为父级少了 flex-shrink-0”
“标题层级比设计稿粗,可改成 font-medium”
“grid 不对齐,因为包裹层少了 gap-x 分隔”
“搜索栏的 padding 在图中更大,建议变为 px-4 py-2”
我第一次感受到:
模型不是在猜,是在看。不是理解语言,是理解画面——就像一个前端高级工程师坐边上一样。
五、动手:你可以在 5 分钟内复现整个体验
这部分我会给出最小可复现步骤,让你马上试起来。
1)准备 Claude Code(推荐)
在终端添加:
或者配置文件:
2)让模型看 UI 图(核心步骤)
将任意 UI 图拖入 Claude Code,输入:
3)让模型帮你修 UI bug
把异常截图上传,输入:
4)扩展案例:视觉 + 交互协同
你可以继续让它:
模型会自动生成:
drawer 组件
composables 逻辑
动画
事件绑定
这展示了它在前端工程化能力上的“Agentic”倾向。
六、如果要用一句话形容 Doubao-Seed-Code 的视觉能力……
我会说:它是第一个真正能“看懂设计稿”的编程模型,而不是把“图转文字后再写代码”的语言模型。
它能理解布局、视觉层级、间距、对齐、信息模块,这些能力不是语言模型的延伸,而是前端工程认知的延伸。
在前端这个高度依赖“视觉结构代码映射”的领域,VLM 是一个质的改变。
七、模型并不是来替代前端,而是重塑前端
前端真正的瓶颈不是“写代码”,而是:
理解页面结构
复刻设计稿
在脑中构建布局
调样式
修肉眼可见但语言难描述的细节
当模型能够理解视觉,它开始承担起“结构理解”这一最难的部分,而开发者可以把更多时间放在:
交互设计
动画体验
信息架构
业务逻辑
全链路性能
如果说前端曾经被称为“还原度工程师”,那么视觉理解模型(传送门)就是从根上改变这个称呼的工具。
前端不是被替代,而是被升级。如果你也在探索“AI 参与前端工程流程”,欢迎留言交流。