首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

蚂蚁集团发布 DevOps 领域大模型评测基准 DevOps-Eval

据站长之家 11 月 2 日报道,蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准“DevOps-Eval”。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等 8 个类别的选择题,共计 4850 道题目。此外,还针对 AIOps 任务做了细分,并添加了日志解析、时序异常检测、时序分类和根因分析等任务。

目前,DevOps-Eval 已发布了第一期的评测榜单,评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot,评测结果显示各模型得分相差不大。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OnTZJiIXwi8MT3qbdaPZMRNQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券