首页
学习
活动
专区
圈层
工具
发布

从 “提示词调参师” 到 “确定性工程师”:AI Agent 搭建师的破局之路

上周约了几个做 AI Agent 搭建的老伙计喝咖啡,刚坐下就有人吐苦水:“现在 o1 给个任务直接自己拆步骤,产品经理用 Coze 拖两天就搭出个运营 Agent,我们天天搞组件连线,感觉随时能被替代。” 这话戳中了我最近的隐忧 —— 作为最早一批靠 ReAct、CoT 提示词吃饭的 Agent 搭建者,我明显感觉到手里的 “核心技能” 正在快速贬值。

一、被夹在中间的困境:我也曾陷入自我怀疑

上层:基础模型的能力碾压,让提示词技巧失效

之前给客户做任务拆解,我得反复调试 ReAct 提示词,给模型埋 “思考节点”,引导它一步步拆解跨部门财务报销的流程。上个月试了 o1,同样的需求,我刚把 “跨部门预算扣减 + 三级合规校验” 抛过去,它直接输出了包含异常回滚、节点通知的完整执行路径,连我特意埋的 “部门权限冲突” 的坑都自己绕过去了。那一刻突然明白:靠人工设计任务拆解逻辑的时代,可能真的要过去了。

下层:低代码工具的 “全民搭建”,让组件连线的价值缩水

上周公司运营小姐姐找我,说她用 Flowise 搭了个用户咨询 Agent,对接了知识库,能回答 80% 的常见问题,剩下的转人工就行。我看了她的搭建过程 —— 就是把 RAG 组件、对话组件拖进去连个线,全程没写一行代码。那时候我就反思:如果我的工作只是做同样的事,那我的不可替代性在哪?

二、重新锚定价值:企业要的从来不是 “聪明”,是 “靠谱”

后来跟一个甲方客户聊,他说之前用低代码搭的 Agent 看起来聪明,但经常在合规环节出错:要么漏了部门审批,要么预算扣减算错,最后还是得人工擦屁股。他给我算过一笔账:企业愿意为 Agent 付费的核心,从来不是它能 “聊上天”,而是能 “把活干对,不出错,省人工”。

这一下点醒了我:我们的价值,就是解决低代码工具和基础模型覆盖不了的 “最后 20%” 的确定性问题 —— 从 “靠概率调优模型”,跃迁到 “靠工程能力落地靠谱的系统”。

三、破局的三个核心竞争力:我在项目里踩过的坑与总结

1. 把模糊的业务 SOP,拆成 Agent 能执行的确定性逻辑

上个月给一家企业做财务核销 Agent,他们的 SOP 特别绕:跨部门预算要分三次扣减,还要过三级合规校验,异常情况得回滚到上一节点。低代码工具根本搞不定这种模糊又严谨的流程,我花了一周时间把这些规则拆解成有限状态机(FSM),每个状态的流转都写死逻辑 —— 比如触发 “预算不足” 异常时,直接触发回滚,同时通知部门负责人。

这个过程里,我得把业务方嘴里的 “大概是这样” 翻译成 “必须这样” 的代码逻辑,这是拖拽组件永远做不到的 —— 毕竟企业的核心业务规则,从来不会是可视化组件能覆盖的通用流程。

2. 用自动化评估闭环,把 “靠谱” 量化出来

之前跟客户汇报,总说 “这个 Agent 更聪明了”,但客户根本不认。后来我学着做自动化评估闭环:

先整理 100 个真实的财务报销场景当 “黄金数据集”;

用 Ragas 测上下文召回率、生成内容的忠实度;

引入 LLM-as-a-Judge 机制做自动化测评。

现在每次迭代我都出量化报告:“这次迭代把幻觉率从 22% 降到 7%,意图识别准确率提升了 8%”。客户看了报告直接签字,再也不说 “我怎么知道它靠谱”—— 毕竟数字比 “感觉聪明” 有说服力多了。

3. 给 Agent 加 “防呆机制”,把不确定性锁死在可控范围

大模型的输出是概率性的,但业务结果必须是 100% 确定的。我在项目里做了几个关键设计:

用 Schema 约束强制 Agent 输出结构化 JSON,不能瞎写自然语言;

在高风险操作(比如删除核心数据)前,加了Human-in-the-loop环节,必须有人工审核才能执行;

引入 “评论家” Agent 角色,每次输出前先自己检查有没有违反合规规则。

这些设计看起来不起眼,但能把大模型的不确定性锁死,确保 Agent 的输出符合业务要求 —— 这才是企业愿意为之付费的 “确定性”。

四、未来的两个职业方向:我身边同行的真实选择

现在身边的同行大概分成了两拨,都找到了自己的新定位:

行业架构师:70% 懂业务,30% 做技术

有个朋友去了医疗公司,天天跟医生、合规部门泡在一起,把医院的病历审核、医保报销 SOP 转成 Agent 逻辑。他说现在 70% 的时间在聊业务,30% 在做技术,懂医疗合规比会写 Python 重要多了—— 企业要的是能解决他们专属问题的人,不是通用的搭建者。

系统工程师:70% 搞工程落地,30% 懂算法

另一个同事专攻 Agent 的工程化落地,最近在做多 Agent 的通信协议优化,还有 Token 消耗的降本。他说现在客户关心的是 “Agent 能不能跑稳,能不能省钱”—— 比如把 RAG 的混合搜索策略调优后,Token 成本降了 30%,这比 “Agent 更聪明” 值钱多了。

五、给还在焦虑的同行的三个建议:我正在做的事

1. 放下对提示词的执念,深耕业务流程

我现在很少花时间调提示词了,反而每周抽两天跟业务方待在一起,把他们嘴里的 “模糊规则” 一条条拆出来。比如上周跟供应链部门聊,他们说 “库存不足时优先调货,但要看客户等级”,我把这句话拆成了 “库存阈值判断客户等级校验调货优先级排序异常通知” 四个确定性步骤 —— 这种对业务的深度理解,是模型和工具学不来的。

2. 建一个能循环迭代的数据闭环

Agent 不是一次性产品,得持续优化。我给每个项目都建了反馈闭环:

用户投诉/错误案例 清洗成训练数据 更新知识库/调整逻辑 重新评估

上个月就是靠用户反馈的 “报销单附件识别错误”,优化了 RAG 的召回策略,把准确率提了 12%—— 数据闭环才是 Agent 长期稳定的核心。

3. 搞定企业的专属数据治理

大模型是通用的,但企业的专属数据是核心。我最近帮客户整理了三年的财务文档,把杂乱的报销规则、合规条款分类成结构化的知识库,还加了版本控制。现在 Agent 的上下文召回率从 60% 升到了 90%—— 谁能把企业的 “私域数据” 盘活,谁就握了 Agent 的核心竞争力。

最后:焦虑是成长的信号

其实回头看,这种焦虑不是坏事。早期靠 “会写提示词” 的信息差红利确实退了,但取而代之的是 “用工程能力解决复杂业务问题” 的认知差红利。低代码工具简化了基础工作,反而让我们能聚焦到真正有价值的地方 —— 毕竟在企业眼里,能把事做对、负责业务结果的人,永远不会被替代。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O48VlrTirfPUfNUY-ME13tKQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券