国内各大厂商的大模型服务纷纷上线,应用密集落地应该是接下来的主旋律,将之前看过的 LLM Bootcamp 系列视频[1](由 The Full Stack 出品,内容由 11 节 talk 组成,质量很高,推荐去看原视频)分享下。本篇主要是 LLMOps 这节讲座的笔记,包括如何选择基础模型、如何评估模型性能、模型的部署、如何管理 Prompt 的迭代过程、监控和持续改进,以及最后提出的测试驱动 LLM 应用开发的理念,比我之前这篇更详尽基于大语言模型的智能问答系统应该包含哪些环节?可以作为每个 LLM 应用开发者的一个 checklist,在应用国内基础语言模型服务时提供参考。
闭源模型具体对比
开源模型具体对比
设计评估指标
提高输出质量
Prompt管理
因为这个系列 talk 是五月份发布的,过去三个月,当下已经有很多相关的管理工具了,既有之前的 MLOps 基础设施增加这类支持,如 Weights & Biases,Comet 和 MLflow,也有 HoneyHive,PromptLayer 这类新型的创业公司。
Git 追踪 prompt 即可满足大多数团队需求
专业 prompt 追踪工具
监控指标
最后提出的测试驱动 LLM 应用开发的理念也很实用
测试驱动 LLM 应用开发
如果觉得内容不错,欢迎关注,转发和点赞~
[1] 视频: https://fullstackdeeplearning.com/llm-bootcamp/