首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

FB 开源大型语言模型 LLAMA:可单 GPU 运行,为在消费级硬件上获得类似 ChatGPT 性能打开了大门

据称LLaMA-13B的性能比ChatGPT之类的技术更胜一筹,尽管小10倍。

周五,Meta宣布了一种新的基于AI的大型语言模型(LLM):LLaMA-13B,声称尽管“小10倍”,但其性能超过了OpenAI的GPT-3模型。

比较小的AI模型有望实现在PC和智能手机等设备上本地运行ChatGPT之类的语言助理。

它是名为“大型语言模型Meta AI”(简称LLAMA)的语言模型新家族的成员。

LLaMA语言模型家族的参数数量从70亿个到650亿个不等。相比之下,OpenAI的GPT-3模型(ChatGPT的基础模型)拥有1750亿个参数。

Meta使用公开可用的数据集(比如Common Crawl、Wikipedia和C4)训练其LLaMA模型,这意味着这家公司可能会将模型和权重开源。这是颇引人注目的新动向,毕竟在这个行业,到目前为止,角逐AI市场的科技巨头玩家们对各自最强悍的AI技术都严加保密。

项目成员Guillaume Lample发推文写道:“与Chinchilla、PaLM或GPT-3不同,我们只使用公开可用的数据集,从而使我们的工作与开源兼容并且可重现,而大多数现有模型依赖未公开可用或未正式记录的数据。”

Meta将其LLaMA模型称为“基础模型”,这意味着这家公司打算将这些模型作为基础,以便将来开发基于该技术构建的更精细的AI模型,类似OpenAI利用GPT-3的基础构建ChatGPT的方式。

该公司希望LLaMA将在自然语言研究和潜在的高级应用领域发挥作用,比如“问题回答、自然语言理解或阅读理解,深入了解当前语言模型的能力和局限性”。

虽然最高端的LLaMA模型(有650亿个参数的LLaMA-65B)剑指来自DeepMind、谷歌和OpenAI这些AI竞争对手的类似产品,但可以说最值得关注的动向还是来自LLaMA-13B模型:如前所述,据称这种模型可以在单个GPU上运行,性能优于GPT-3。

与GPT-3衍生技术对数据中心的要求不同,LLaMA-13B为在不久的将来在消费级硬件上获得类似ChatGPT的性能打开了大门。

参数数量是AI中一个很重要的指标。参数是机器学习模型用来根据输入数据进行预测或分类的变量。语言模型中参数的数量是决定性能的关键因素,更大的模型通常能够处理更复杂的任务,并生成更一致的输出。然而更多的参数占用更多的空间,需要更多的计算资源来运行。因此,如果一个模型能在参数较少的情况下获得与另一个模型相同的结果,这表明它显著提升了效率。

独立AI研究人员Simon Willison在Mastodon的一个帖子中分析了Meta新AI模型具有的影响,他写道:“我现在认为,一两年内,我们可以在自己的(最先进)手机和笔记本电脑上运行拥有ChatGPT大部分功能的语言模型。”

目前,精简版的LLaMA已发布在GitHub上(https://github.com/facebookresearch/llama)。

为了获得完整的代码和权重(神经网络中“习得”的训练数据),Meta提供了一个表单(https://forms.gle/jk851eBVbX1m5TAv5),感兴趣的研究人员可以请求访问。Meta目前还没有宣布更广泛地发布模型和权重的计划。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230225A07G9Y00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券