4月5日,Meta公司正式发布了大型语言模型Llama的最新版本——Llama 4 Scout与Llama 4 Maverick。在官方声明中,Meta宣称Llama 4是一个多模态AI系统,具备处理和整合文本、视频、图像、音频等多种数据类型的能力,还能在不同格式之间实现内容转换。
然而,这一备受瞩目的新模型发布后不久,便陷入了争议漩涡。
争议的源头来自海外留学求职交流论坛“一亩三分地”上的一篇帖子。发帖人自称是参与Llama 4训练的内部员工,并且表示已因此事辞职。该员工透露,尽管团队为训练Llama 4付出了诸多努力,但内部模型性能始终难以达到开源SOTA(State - of - the - Art,顶尖水平)基准,与预期存在明显差距。为达成既定目标,公司领导层提出在训练后期将各种基准测试的“测试集”数据混入训练或微调数据中,以此在各项指标上达成目标,从而交出一份“好看”的成绩单。
无独有偶,就在Llama 4即将发布的前几天,Meta AI研究主管Joelle Pineau在工作8年之后突然宣布离职,这一人事变动也为Llama 4的发布蒙上了一层阴影。
知名科技媒体TechCrunch也发文对Llama 4的性能测试提出质疑,认为其存在误导性。文章重点关注了Llama 4(即Maverick)在著名的人类评估排行榜LM Arena上的表现。尽管Maverick在该排行榜上取得了第二名的好成绩,但背后似乎另有隐情。在一些实测中,号称千万上下文的召回率,其上下文的实际表现远低于预期。而且,Llama 4 Maverick在aider多语言编码基准测试中的实测得分仅为16%。
面对外界的诸多质疑,Meta生成式AI负责人Ahmad Al - Dahle发文进行了官方回应。Ahmad表示,Llama 4在开发完成后就立即发布了,所以不同服务中模型质量难免会出现一些差异。
据悉,Meta Platforms的CEO扎克伯格此前曾给全员下达死命令,要求4月底必须完成Llama 4的交付。此次Llama 4刚开源就遭遇的争议,无疑给Meta在AI领域的发展带来了新的挑战。
领取专属 10元无门槛券
私享最新 技术干货