文章/答案/技术大牛

发布

从 “提示词调参师” 到 “确定性工程师”：AI Agent 搭建师的破局之路

文章来源：企鹅号 - 香菜007

上周约了几个做 AI Agent 搭建的老伙计喝咖啡，刚坐下就有人吐苦水：“现在 o1 给个任务直接自己拆步骤，产品经理用 Coze 拖两天就搭出个运营 Agent，我们天天搞组件连线，感觉随时能被替代。” 这话戳中了我最近的隐忧 —— 作为最早一批靠 ReAct、CoT 提示词吃饭的 Agent 搭建者，我明显感觉到手里的 “核心技能” 正在快速贬值。

一、被夹在中间的困境：我也曾陷入自我怀疑

上层：基础模型的能力碾压，让提示词技巧失效

之前给客户做任务拆解，我得反复调试 ReAct 提示词，给模型埋 “思考节点”，引导它一步步拆解跨部门财务报销的流程。上个月试了 o1，同样的需求，我刚把 “跨部门预算扣减 + 三级合规校验” 抛过去，它直接输出了包含异常回滚、节点通知的完整执行路径，连我特意埋的 “部门权限冲突” 的坑都自己绕过去了。那一刻突然明白：靠人工设计任务拆解逻辑的时代，可能真的要过去了。

下层：低代码工具的 “全民搭建”，让组件连线的价值缩水

上周公司运营小姐姐找我，说她用 Flowise 搭了个用户咨询 Agent，对接了知识库，能回答 80% 的常见问题，剩下的转人工就行。我看了她的搭建过程 —— 就是把 RAG 组件、对话组件拖进去连个线，全程没写一行代码。那时候我就反思：如果我的工作只是做同样的事，那我的不可替代性在哪？

二、重新锚定价值：企业要的从来不是 “聪明”，是 “靠谱”

后来跟一个甲方客户聊，他说之前用低代码搭的 Agent 看起来聪明，但经常在合规环节出错：要么漏了部门审批，要么预算扣减算错，最后还是得人工擦屁股。他给我算过一笔账：企业愿意为 Agent 付费的核心，从来不是它能 “聊上天”，而是能 “把活干对，不出错，省人工”。

这一下点醒了我：我们的价值，就是解决低代码工具和基础模型覆盖不了的 “最后 20%” 的确定性问题 —— 从 “靠概率调优模型”，跃迁到 “靠工程能力落地靠谱的系统”。

三、破局的三个核心竞争力：我在项目里踩过的坑与总结

1. 把模糊的业务 SOP，拆成 Agent 能执行的确定性逻辑

上个月给一家企业做财务核销 Agent，他们的 SOP 特别绕：跨部门预算要分三次扣减，还要过三级合规校验，异常情况得回滚到上一节点。低代码工具根本搞不定这种模糊又严谨的流程，我花了一周时间把这些规则拆解成有限状态机（FSM），每个状态的流转都写死逻辑 —— 比如触发 “预算不足” 异常时，直接触发回滚，同时通知部门负责人。

这个过程里，我得把业务方嘴里的 “大概是这样” 翻译成 “必须这样” 的代码逻辑，这是拖拽组件永远做不到的 —— 毕竟企业的核心业务规则，从来不会是可视化组件能覆盖的通用流程。

2. 用自动化评估闭环，把 “靠谱” 量化出来

之前跟客户汇报，总说 “这个 Agent 更聪明了”，但客户根本不认。后来我学着做自动化评估闭环：

先整理 100 个真实的财务报销场景当 “黄金数据集”；

用 Ragas 测上下文召回率、生成内容的忠实度；

引入 LLM-as-a-Judge 机制做自动化测评。

现在每次迭代我都出量化报告：“这次迭代把幻觉率从 22% 降到 7%，意图识别准确率提升了 8%”。客户看了报告直接签字，再也不说 “我怎么知道它靠谱”—— 毕竟数字比 “感觉聪明” 有说服力多了。

3. 给 Agent 加 “防呆机制”，把不确定性锁死在可控范围

大模型的输出是概率性的，但业务结果必须是 100% 确定的。我在项目里做了几个关键设计：

用 Schema 约束强制 Agent 输出结构化 JSON，不能瞎写自然语言；

在高风险操作（比如删除核心数据）前，加了Human-in-the-loop环节，必须有人工审核才能执行；

引入 “评论家” Agent 角色，每次输出前先自己检查有没有违反合规规则。

这些设计看起来不起眼，但能把大模型的不确定性锁死，确保 Agent 的输出符合业务要求 —— 这才是企业愿意为之付费的 “确定性”。

四、未来的两个职业方向：我身边同行的真实选择

现在身边的同行大概分成了两拨，都找到了自己的新定位：

行业架构师：70% 懂业务，30% 做技术

有个朋友去了医疗公司，天天跟医生、合规部门泡在一起，把医院的病历审核、医保报销 SOP 转成 Agent 逻辑。他说现在 70% 的时间在聊业务，30% 在做技术，懂医疗合规比会写 Python 重要多了—— 企业要的是能解决他们专属问题的人，不是通用的搭建者。

系统工程师：70% 搞工程落地，30% 懂算法

另一个同事专攻 Agent 的工程化落地，最近在做多 Agent 的通信协议优化，还有 Token 消耗的降本。他说现在客户关心的是 “Agent 能不能跑稳，能不能省钱”—— 比如把 RAG 的混合搜索策略调优后，Token 成本降了 30%，这比 “Agent 更聪明” 值钱多了。

五、给还在焦虑的同行的三个建议：我正在做的事

1. 放下对提示词的执念，深耕业务流程

我现在很少花时间调提示词了，反而每周抽两天跟业务方待在一起，把他们嘴里的 “模糊规则” 一条条拆出来。比如上周跟供应链部门聊，他们说 “库存不足时优先调货，但要看客户等级”，我把这句话拆成了 “库存阈值判断客户等级校验调货优先级排序异常通知” 四个确定性步骤 —— 这种对业务的深度理解，是模型和工具学不来的。

2. 建一个能循环迭代的数据闭环

Agent 不是一次性产品，得持续优化。我给每个项目都建了反馈闭环：

用户投诉/错误案例清洗成训练数据更新知识库/调整逻辑重新评估

上个月就是靠用户反馈的 “报销单附件识别错误”，优化了 RAG 的召回策略，把准确率提了 12%—— 数据闭环才是 Agent 长期稳定的核心。

3. 搞定企业的专属数据治理

大模型是通用的，但企业的专属数据是核心。我最近帮客户整理了三年的财务文档，把杂乱的报销规则、合规条款分类成结构化的知识库，还加了版本控制。现在 Agent 的上下文召回率从 60% 升到了 90%—— 谁能把企业的 “私域数据” 盘活，谁就握了 Agent 的核心竞争力。

最后：焦虑是成长的信号

其实回头看，这种焦虑不是坏事。早期靠 “会写提示词” 的信息差红利确实退了，但取而代之的是 “用工程能力解决复杂业务问题” 的认知差红利。低代码工具简化了基础工作，反而让我们能聚焦到真正有价值的地方 —— 毕竟在企业眼里，能把事做对、负责业务结果的人，永远不会被替代。

发表于: 1天前2026-01-30 13:46:07
原文链接：https://page.om.qq.com/page/O48VlrTirfPUfNUY-ME13tKQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

从 “提示词调参师” 到 “确定性工程师”：AI Agent 搭建师的破局之路

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐