基础开源大模型又进一步? Meta发布llama3.1最大模型参数450B!

文章来源：企鹅号 - 动漫IT收看号

最近几天AI大模型的大新闻无非就两个了:Meta公布了它们的llama3.1,参数量很大,紧接一天Mistral公布了Mistal2.0. 在这之前Claude3.5已经让许多人惊讶了(不过前两者主要还是基础模型,而Claude本身已经是软件产品了)

随着这两个开源模型的公布,一大堆评估接踵而来.

我们看看这俩模型的报告.

LLAMA3.1

众所周知,Meta在前端有React,在深度学习有torch,目前又在大模型有llama3,可以说是开源老大了.

可以看到模型最大有405B的,上下文长度达到了惊人的128K(这个上下文长度就是注意力机制中qkv作用的seq长度),tokenizer没变,提高了八种语言的多语言对话用例推理效率，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

Mistral2

这家AI公司之前的Mistral模型也是惊艳一时,使用mixture of expert融合多个模型的答案.

难绷的是命名两个模型接着出来的,后出的Mistral在报告里竟还是提到llama3.1的70B模型,说自己代码生成和数学计算能力更强Large Enough | Mistral AI | Frontier AI in your hands.

对于个人使用的话,如果想要本地使用,期待后续ollama以及LM studio推出,哦已经推出了,那没事了

ollama run llama3.1:70b

最后再谈谈我对AI大模型的一些看法,首先继续研究基础模型的公司应该就只有一些大厂了,在应用层面上需要发发力了,当然这也并不简单,因为所谓的AI助手能帮忙的还很有限,而且依附于硬件上性能可能又会受限.

我个人还是更关注以图像为主的多模态模型,毕竟视觉信息很不错

相关快讯