首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

多所高校联手推出AgentBench,可测试大语言模型能力

品玩8月9日讯, Arxiv页面显示,由来自清华大学、俄亥俄州立大学和加州大学伯克利分校等机构的研究者组成的团队近日发布一款测试工具AgentBench,可用于对大语言模型的能力进行测试。

AgentBench目前包括8个不同的任务,可测试大语言模型在多轮开放式生成环境中的推理和决策能力。实验结果显示,GPT-4当前的表现最佳,而 Claude和GPT3.5分别排名第二、第三。

AgentBench 的数据集、环境和集成评估软件包已发布在https://github.com/THUDM/AgentBench 上。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OtzSFA-wKpGeqCxdnEKrL1rw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券