FB 开源大型语言模型 LLAMA：可单 GPU 运行，为在消费级硬件上获得类似 ChatGPT 性能打开了大门

文章来源：企鹅号 - 云头条

据称LLaMA-13B的性能比ChatGPT之类的技术更胜一筹，尽管小10倍。

周五，Meta宣布了一种新的基于AI的大型语言模型（LLM）：LLaMA-13B，声称尽管“小10倍”，但其性能超过了OpenAI的GPT-3模型。

比较小的AI模型有望实现在PC和智能手机等设备上本地运行ChatGPT之类的语言助理。

它是名为“大型语言模型Meta AI”（简称LLAMA）的语言模型新家族的成员。

LLaMA语言模型家族的参数数量从70亿个到650亿个不等。相比之下，OpenAI的GPT-3模型（ChatGPT的基础模型）拥有1750亿个参数。

Meta使用公开可用的数据集（比如Common Crawl、Wikipedia和C4）训练其LLaMA模型，这意味着这家公司可能会将模型和权重开源。这是颇引人注目的新动向，毕竟在这个行业，到目前为止，角逐AI市场的科技巨头玩家们对各自最强悍的AI技术都严加保密。

项目成员Guillaume Lample发推文写道：“与Chinchilla、PaLM或GPT-3不同，我们只使用公开可用的数据集，从而使我们的工作与开源兼容并且可重现，而大多数现有模型依赖未公开可用或未正式记录的数据。”

Meta将其LLaMA模型称为“基础模型”，这意味着这家公司打算将这些模型作为基础，以便将来开发基于该技术构建的更精细的AI模型，类似OpenAI利用GPT-3的基础构建ChatGPT的方式。

该公司希望LLaMA将在自然语言研究和潜在的高级应用领域发挥作用，比如“问题回答、自然语言理解或阅读理解，深入了解当前语言模型的能力和局限性”。

虽然最高端的LLaMA模型（有650亿个参数的LLaMA-65B）剑指来自DeepMind、谷歌和OpenAI这些AI竞争对手的类似产品，但可以说最值得关注的动向还是来自LLaMA-13B模型：如前所述，据称这种模型可以在单个GPU上运行，性能优于GPT-3。

与GPT-3衍生技术对数据中心的要求不同，LLaMA-13B为在不久的将来在消费级硬件上获得类似ChatGPT的性能打开了大门。

参数数量是AI中一个很重要的指标。参数是机器学习模型用来根据输入数据进行预测或分类的变量。语言模型中参数的数量是决定性能的关键因素，更大的模型通常能够处理更复杂的任务，并生成更一致的输出。然而更多的参数占用更多的空间，需要更多的计算资源来运行。因此，如果一个模型能在参数较少的情况下获得与另一个模型相同的结果，这表明它显著提升了效率。

独立AI研究人员Simon Willison在Mastodon的一个帖子中分析了Meta新AI模型具有的影响，他写道：“我现在认为，一两年内，我们可以在自己的（最先进）手机和笔记本电脑上运行拥有ChatGPT大部分功能的语言模型。”

目前，精简版的LLaMA已发布在GitHub上（https://github.com/facebookresearch/llama）。

为了获得完整的代码和权重（神经网络中“习得”的训练数据），Meta提供了一个表单（https://forms.gle/jk851eBVbX1m5TAv5），感兴趣的研究人员可以请求访问。Meta目前还没有宣布更广泛地发布模型和权重的计划。

发表于: 2023-02-252023-02-25 22:19:13
原文链接：https://kuaibao.qq.com/s/20230225A07G9Y00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

FB 开源大型语言模型 LLAMA：可单 GPU 运行，为在消费级硬件上获得类似 ChatGPT 性能打开了大门

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐