
最近发现很多金融、零售、制造、消费品等企业在推进AI Coding转型。
"我们现在到哪个阶段了?下一步该做什么?"
我见过几种典型答案:
同一家公司,四个人,四把尺,量出来四个答案。
没有尺,就没有共识,就没有方向。
于是我做了一件事:把不同行业、不同规模企业里看到的现状、踩的坑、走通的路,归纳成一个可度量的成熟度模型——企业级 AI Coding 成熟度模型,今天正式发布 V1.0。

模型用 L1-L5 五个级别描述 AI Coding 在企业里的成熟度。
层级数不是拍脑袋定的。理由只有一条:层级数 = 质变点个数 + 1。AI Coding 在企业落地,有四个必须跨越的分水岭:
质变点 | 从 → 到 | 典型时长 |
|---|---|---|
① | 个人 → 组织 | 2–4 周 |
② | 试点 → 全面 | 3–6 个月 |
③ | 经验 → 数据 | 6–12 个月 |
④ | 跟随 → 定义 | 12–24 个月 |
起点(L1)+ 四次质变(L2/L3/L4/L5),合为 5 级。每一级之间都是跨越,不是渐变。
L1 · 个人探索
AI Coding 只在个人层面,组织看不见也管不到。工程师用个人账号订阅工具,经验靠私信传,管理层不知道谁在用什么。
L2 · 企业试点
有了授权、预算、试点团队和初步资产,但能力仍绑在试点团队里,跨团队复用几乎不存在。这是目前最拥挤的一段——大多数企业卡在这里。
L3 · 企业全面使用
规范走到正式版,过半工程师日常使用,能力长进组织骨架。数据采集齐了,但尚未真正进入决策。这是多数企业的合理目标终点。
L4 · 量化驱动
出现过至少一次因数据推翻原有判断的管理层评审会议。数据不只是报表,而是真正改变了决策。全球屈指可数。
L5 · 研发范式
方法论被行业引用,核心资产被外部独立复现。组织从追赶者变成定义者。L5 没有终点,维持靠持续更新。

企业级AI Coding成熟度模型有两条硬规则。
第一条:短板原则。
级别取决于最弱的那条能力线,不取平均,不取最亮的点。
一家公司 AGENTS.md 已经走到正式版、指标也采齐了,但合规许可只覆盖半数员工——那就还停在 L1 与 L2 之间,不是 L3。
许多企业对外讲 L3、对内做 L1,根因就是拿亮点当整体。
第二条:晋级门禁。
从本级跨到下一级,必须同时具备硬事实与硬指标,并能被第三方核验。
主观感受、PPT 措辞、周报里的形容词,不纳入衡量。
根据与多个行业企业的交流,各行业的分布大概是这样的:
行业 | 主要集中 |
|---|---|
制造业 / 传统零售 / 政务国企 | L1,少量 L2 |
金融 / 银行 | L2 为主,少量 L3 |
头部互联网 / 科技公司 | L2–L3,极少数 L4 |
AI 原生公司 | L3–L4,极少数 L5 |
最常见的误判:对外宣称 L3,Git 里的 AGENTS.md 仍是初版,只有试点团队在用。
有一个判断方法很简单:让你的 CTO、Tech Lead、一线工程师各自说一下"我们现在在几级"。如果三个答案不一样,说明你们还没有一把共同的尺。
对 CTO / 技术 VP:有了一份能拿到董事会、拿给投资人的结构化陈述。不再靠"我们有十几个试点项目"这种含糊说法,而是能说清"我们目前在 L2,短板在跨团队治理,下季度把 L2→L3 的 4 项门禁补齐"。
对 Tech Lead / 研效负责人:规划不再是"把 AI 好好用起来",而是"这季度把 PR-Spec 关联率从 40% 推到 70%,让四项核心指标的周报稳定 8 周"。预算申请、跨团队协作、招聘需求,都有了共享的参照系。
对工程师:第一次能清楚看到"这家公司现在处在哪、下一步要去哪、自己当前做的事对不对"。那些晚上刷到的新工具、新论文,现在有了归位的地方——属于当前短板就投入,不属于就先观察。
个人的焦虑大多来自没有参照系。一旦有了尺,焦虑会变成计划。
《企业级 AI Coding 成熟度模型》白皮书 V1.0,约 10000 字,包含:
面向读者:
