某研究者近日在代码托管平台发布了针对大语言模型的新基准测试框架。该框架包含从实际与大语言模型对话记录中提取的近100项测试,涵盖以下技术场景:
该基准测试框架采用数据流领域特定语言(DSL)实现,支持灵活添加新测试用例并自动评估模型输出。评估方式包括:
# Python代码生成测试
"Write hello world in python" >> LLMRun() >> PythonRun() >> SubstringEvaluator("hello world")
# 模糊问题处理测试
"In python what __thing__ do I use for ~, kind of like how __add__ is for +?" >> \
LLMRun() >> (SubstringEvaluator("__inv__") | SubstringEvaluator("__invert__"))
# 图像生成能力测试
"Write a C program that draws an american flag to stdout." >> LLMRun() >> CRun() >> \
VisionLLMRun("What flag is shown in this image?") >> \
(SubstringEvaluator("United States") | SubstringEvaluator("USA"))
框架使用数据流操作符(>>)构建测试管道,每个操作符代表一个处理步骤:
框架支持多步骤交互测试,例如Git操作测试:
Setup(setup) >> "You are in a repository with. Make a new git repo and commit." >> \
UntilDone(PyEvaluator(test_if_question_is_solved),
(LLMRun() >> PyFunc(extract_cmd) >> TerminalRun() >> PyFunc(extract_output)),
max_iters=4) >> PyEvaluator(test_if_question_is_solved)
与传统学术基准不同,该框架专注于:
该基准测试框架为实践者提供了评估大语言模型实用能力的工具,特别适用于:
研究者强调该框架不适合学术基准使用,但鼓励开发者扩展测试用例以评估模型在特定领域的实用性能。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。