想一想AI产生的时间线,不由得会感觉后背一凉,23年初ChatGPT初出茅庐,现在的AI发展已经百花齐放了,各个大公司都在疯狂卷AI推理,AI性能,AI成本,最后收益的只有Intel在看着排到明年的订单偷着乐(开玩笑)
本文探讨一下AI给当下业务能够带来哪些流程化工程化的价值
虽然模型种类有很多,但是在笔者看来主要的逻辑经验为以下两类:模型训练与RAG+AI处理
核心:将某一个重复性动作 交给AI执行
我们知道一件事情如果自己做第一遍会很有趣,但是做很多遍之后就会索然无味,这就是所谓的厌烦心理,但是现在有了一个不知疲倦的"牛马"来帮我们做不得不做的重复性动作,何乐而不为呢
针对于模型训练,核心要抓住让AI遵守什么样的流程规范
针对于模型训练,公司内已经有很多主流的落地实践经验
1) 腾讯会议小助手:
功能定位:高效总结会议纪要,回答会议内问题
这里我们可以发现,它针对于用户输入问题,能够给出非常简要的回答,作为使用者,我们肯定希望看到这样的答案,而这也正是模型要训练的功能,即让AI回答精简化
{
"detailed": {
"query": "今天天气怎么样",
"answer": "今天是2025年8月18日(星期一),深圳地区天气为阴天间多云,有间歇性雷阵雨,累计雨量可达暴雨。气温在25-29℃之间,湿度75%-95%。东南风3-4级,沿海地区阵风可达8级。空气质量较好,但需注意强降水可能引发地质灾害,避免海上活动,降雨时段能见度较低需注意交通安全。"
},
"simple": {
"query": "今天天气怎么样",
"answer": "暴雨,25-29℃,东南风3-4级(沿海阵风8级),外出需带伞并注意安全。"
}
}
训练的数据笔者猜测为上面simple
的数据格式,如果一般情况下,AI会返回detailed这种格式的信息,但是通过几万条甚至几十万条simple
格式的训练信息,便能够约束AI回答的问题格式
2) 腾讯广告内容理解实践案例
功能定位:根据输入信息,识别背后的可能电商产品类型,从而进行定向推荐
通俗理解就是推荐算法,不过是做得更高级了,原本的推荐可能是:
你看了A商品,会给你推荐很多与A商品同类型的电商产品
但是应用这种方式后,现在的推荐变成了:
我说了A商品的某个功能,直接就可以直接推荐A以及同类型产品给你
将推荐更加简单智能化了,相当于是有一个知音知道你想买什么,不过最后花钱的还是你
而这里训练的行为也很简单,在模型通过Prompt提取到输入内容的电商元素后,由原本的进行分条列举,改为直接返回电商产品类型:
我们也很容易发现,训练后的模型返回信息,无论我们是在数据库检索相关spu,还是进行其他相关处理,灵活度上面都提升了很多
那么在这里模型训练的数据内容是什么呢?
笔者认为是产品属性与最终产品样式的关联,因为AI从文段中提取标识信息的能力是很强的,缺陷在于如何将标识信息转化为具体产品,而模型作者给出的训练数据也印证了这一点:
{"input": "这是[概念提取]任务,请问:南音演唱节 | 夕阳红专场(6月12日)节目单 2023年晋江市“文化和自然遗产日”系列活动晋江市第十七届南音演唱节 ▼ 主办单位 晋江市文化和旅游局 晋江市文学艺术界联合会 承办单位 晋江市文化馆 晋江市南音协会 演出时间 6月10日至28日晚7:30—9:30 演出地点 晋江文化中心祖昌音乐厅 ▼ 6月12日演出单位 夕阳红专场 夕阳红专场节目单 1、器乐合奏《出庭前》 2、清唱《三更人》 — 这篇文章可以提取的电商概念有?", "output": "晋江南音演唱节"}
以上简单分析了两个AI模型落地的经验,总结看来,如果要将模型训练落地到业务,首先要明确几个要点:
1、完成动作:是否为重复性的简单行为,例如文段提取,文本校验等等,凡是比较耗时但是逻辑又很简单的,都很适合交给AI处理
2、训练数据:一般的AI基座肯定会返回很长又冗余的数据,模型训练就是为了板正 AI回复的答案效果,而训练数据的query与answer也为:
query
: 业务实际会接受什么样的问题
answer
:希望接收到什么样的输出结果
这部分的训练数据一般至少需要几千条的,笔者推荐一种数据构造思路(当然了,混元也提供数据构造,但是笔者试过体验不佳):
首先人工构造几百条精修数据(这一步是不可避免的,如果你要保证回答质量的话)
之后让AI仿照这个,再构造一些json数据,AI很擅长做模仿操作
最后人工校验逐条筛查
3、是否需要较少的外部数据:我们能够发现模型训练都依托于较少的外部数据,只需要让AI针对当前信息进行处理
4、推理能力要求不高:模型训练需要显卡资源、精修数据、时间成本等一系列debuff,模型基座越高,训练起来越费劲,笔者训练过几次模型,推荐如果你的场景需要很好的推理能力,那么不要使用模型训练,如果使用,最好需要外挂deepseek的API提升回答效果
核心:外挂知识库信息,让AI进行相似性语义检索,得到与问题最相似的语义片段,之后交由deepseek等推理类模型处理
针对于这种方案,我认为核心在于检索
关于RAG不熟悉的小伙伴,可以看看这篇文章:https://km.woa.com/articles/show/623673?kmref=search&from_page=1&no=10
我们可以思考几个问题:
因此对于RAG+AI处理,核心在于,让AI检索什么知识库内容?
1) ima
如果有用过的小伙伴应该知道,用户在ima里面,可以自己上传文档等,再询问AI问题,这时背后就会检索用户上传的文档内容,得到最相似的语义片段,再交给AI进行整合推理
因此这里会出现一个情况,如果我创建的个人知识库没有某个语义信息,那么就会:
当然了,这里我没有勾选 联网 选项,勾选了一样可以搜索到结果
2) 元宝
相比于ima,元宝依托的知识库就很丰富了,可以是各个网站的文章,但是更核心的还是微信的视频号、公众号等内容,例如相同的问题输入给它:
我们能看到,它能够精确检索到视频号相关内容,给出回答
因此使用元宝时,我们获得的问题答案也有更好的体验,因为依托于视频号这么丰富的知识库内容,给出的回答一样也不会很差
3) 智能客服
大多为某个固定产品的相关介绍信息,例如腾讯云官网就有一个AI助手回答问题:
而这类问题依托的知识库,是腾讯云内部留下的大量经典产品介绍文档等,这样用户询问某个云产品信息,便能够给出对应的推荐购买引导
通过分析了以上案例,我们也能总结出RAG+AI的实践要点:
1、应用范围:你是希望在内部做一个FAQ小助手,还是拓展到用户侧进行使用,又或者是一个智能客服,但是核心在于回答问题
2、知识库质量:如果你希望做一个FAQ小助手,理论上知识库越丰富,越细节,回答质量越好,因此一个好的知识库非常重要
3、推理能力强:相比于模型训练,本方案还可以外挂一个deepseek API处理,甚至外挂多个都可以,因此推理能力上面很优越
笔者在初来公司时,也做了一个AI工具,核心是排查折扣工单问题,那时只是浅浅了解AI的落地经验,而在真正做出来后,我思考了几个问题:
1、AI对于时代发展的要求是什么?
我们现在的AI实践大多停留在简单的小助手上面,但是时代发展是什么样的呢?
笔者认为可以按照人来类比,因为AI本质也是一个脑子看着数据去处理,AI十分依赖外部数据学习,因此认真的读者不难发现,虽然AI落地应用分类有很多,但是每个AI助手大多只能并且只会完成自己的职责
而如果向拓展AI能力边界,实现方法很简单粗暴,再做一个AI助手
而AI的发展脉络,笔者认为是这样的:
AI只能给一个问题答案 → AI能够回答一类问题 → AI能够回答所有问题 → AI助手落地某一个应用 → AI团队互相协作,解决一个场景问题 → AI网络联通各个场景
而目前AI发展的阶段,就是一个助手,落地到一个应用场景,未来AI之间也会有协作,也会像人一样,互相协作解决一个场景的问题
A2A等协议就旨在提升AI助手互相协作的效率
2、AI浪潮下,对于每个人的要求是什么?
作为00后,往往会互相调侃,我们是最惨的一代,赶上了疫情,还有就业红海,但是最庆幸的,应该就是处于AI这个发展浪潮吧
以上就是本人的一些经验与思考,如果有不对的地方欢迎评论指导!!!
PS:分享一下自己的提示词编写技巧:
核心:CRISP原则
1、C - Clear&Context(清晰与上下文)
明确任务:明确希望模型完成什么功能
提供背景:给出必要背景信息,让模型生成内容更贴切背景内容
避免歧义:尽量精确表述 长文-1500字
2、R - Role(角色扮演)
指定角色:告诉模型你是谁,你在干什么,处理什么事情,你有什么能力等等,让模型生成的答案能够更贴切场景,具有针对性
3、I - Instruction&Format
结构化指令:将复杂要求,按照编号分点列举出来,让AI进行结构化处理:总结
-找论据-分析说服力
指定输出格式:按照XX格式输出,包含XX字段,有XX功能
使用分隔符:通过"""、<>、---等分隔符将上下文,输入数据,指令等分开,保证AI识别准确性
4、S - Step By Step(链式思考/逐步推理)
直接要求:提示词加入"请逐步思考",或者提示词添加:按照A-B-C的内容进行思考
5、P - Example(示例内容)
格式:示例输入:输入文本 -> 输出文本
应用场景:希望模型模仿某种特定风格或者语气结构等,可以这样做
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。