品玩8月9日讯, Arxiv页面显示,由来自清华大学、俄亥俄州立大学和加州大学伯克利分校等机构的研究者组成的团队近日发布一款测试工具AgentBench,可用于对大语言模型的能力进行测试。
AgentBench目前包括8个不同的任务,可测试大语言模型在多轮开放式生成环境中的推理和决策能力。实验结果显示,GPT-4当前的表现最佳,而 Claude和GPT3.5分别排名第二、第三。
AgentBench 的数据集、环境和集成评估软件包已发布在https://github.com/THUDM/AgentBench 上。
领取专属 10元无门槛券
私享最新 技术干货