多所高校联手推出AgentBench，可测试大语言模型能力

文章来源：企鹅号 - 品玩

品玩8月9日讯， Arxiv页面显示，由来自清华大学、俄亥俄州立大学和加州大学伯克利分校等机构的研究者组成的团队近日发布一款测试工具AgentBench，可用于对大语言模型的能力进行测试。

AgentBench目前包括8个不同的任务，可测试大语言模型在多轮开放式生成环境中的推理和决策能力。实验结果显示，GPT-4当前的表现最佳，而 Claude和GPT3.5分别排名第二、第三。