每天一个AI知识-0806
会说谎的AI测评
2025年8月6日的《自然》杂志发表了一篇题为《Is your AI benchmark lying to you》的文章,讨论了人工智能在性能测评上的问题。评价AI模型的性能需要一套合理的评价标准和相应的数据集,这些统称为Benchmark。目前,一些Benchmark存在标准不合理、数据不完善等现象,可能会导致AI研究南辕北辙,需要特别引起警惕。
资料来源:https://www.nature.com/articles/d41586-025-02462-5
参考文献:Michael Brooks, Is your AI benchmark lying to you? Nature, 644, 294-296 (2025)