又双叒叕泄密了,Llama 3.1 405B 提前泄密,历史再次重演,只是不知道这次是不是“故意泄密”的。
Reddit 和磁力链上已经消息满天飞了,估计,积极的同学都已经将模型跑了起来。这次的新模型大小大约820GB,包含有8B、70B、405B三种参数规模的模型,8B和70B是对5月份发布模型的升级,将长文支持提升到了128k。
更令人称道的是 Llama 3.1 惊人的性能,从泄漏的“基准测试”中 Llama 3.1 各版本与 GPT-4o 的对比,可以看出即使是 70B 的模型,也在多项测试里超过了 GPT-4o。Llama 作为开源模型在多个基准测试中超越闭源巨头GPT-4o,这意味着 Llama 3.1 有可能超越 GPT-4o 和 Claude 3.5 Sonnet 成为当前最强大的语言模型之一。
405B版本的性能尤为出色。在MMLU Pro数学基准上,它以73.3%的成绩领先所有大模型。此外,在GPQA(研究生水平的专业知识和推理)、DROP(阅读理解)、MGSM(多语言数学)、HumanEval(编程)和BBH(知识评估)等多个基准测试中,405B版本的表现与GPT-4o不相上下,甚至在某些方面略胜一筹。
Llama 3.1在多个方面都有显著提升:
上下文长度增加到128K tokens,大幅提升了模型处理长文本的能力。
支持8种语言的多语言输入输出,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
预训练数据量达到15万亿tokens,截止到2023年12月,确保了模型知识的时效性。
使用了超过2500万个合成样本进行指令微调,进一步提升了模型的表现。
采用分组查询注意力(GQA)技术,提高了推理的可扩展性。
另外模型卡还披露了Llama 3.1的训练细节。模型在H100-80GB GPU上训练,累计使用了3930万GPU小时的计算时间。值得注意的是,Meta强调自2020年以来一直保持净零温室气体排放,并且100%使用可再生能源,因此基于市场基准的温室气体排放为0吨二氧化碳当量。
业内人士纷纷表示,Llama 3.1的出现将重新定义开源模型的能力上限。Topology CEO Aidan McLau惊呼,如果测试结果属实,Llama 3.1将成为"世界上最好的模型",而且"每个人都可调",价格还比GPT-4o便宜。HyperWriteAI CEO Matt Schumer则预言,它将成为开源模型中的SOTA(最先进水平)。
这一突破性进展不仅在性能上接近或超越了闭源模型,更重要的是,它为开发者和研究人员提供了一个可以自由使用和定制的强大工具。这可能会加速AI应用的创新和普及,让更多人受益于先进的AI技术。
然而,如此强大的模型也带来了潜在的风险。Meta在模型卡中详细列出了安全考量,包括CBRNE(化学、生物、放射性、核和爆炸材料)有用性、儿童安全和网络攻击等方面的风险评估。
Meta强调,Llama 3.1并非设计为单独部署,而应作为整个AI系统的一部分,并配备额外的"安全护栏"。开发者在使用时需要特别注意工具使用和多语言输出的潜在风险,并进行充分的安全测试和微调。
Llama 3.1的泄露无疑是开源AI领域的一个里程碑事件。它不仅缩小了开源与闭源模型之间的差距,更为AI的民主化和创新带来了新的可能。然而,Meta官方尚未就此次泄露做出回应。按照泄露的信息,Llama 3.1预计将于7月23日正式发布。
这次泄露也引发了对AI发展速度和开源模型潜力的讨论。随着Llama 3.1的正式发布,我们可能会看到更多基于它的创新应用和研究成果。同时,这也可能促使其他AI巨头加快自身模型的迭代和开放进程。
领取专属 10元无门槛券
私享最新 技术干货