ChatGPT掀起的热潮仍在持续。
近日Meta发布了一组名为“Meta AI大型语言模型”(简称LLaMA)的基础语言模型,Meta首席执行官扎克伯格在Facebook的一篇帖子中表示:“今天,我们发布了一种新的先进的人工智能大型语言模型LLaMA,旨在帮助研究人员推进他们的工作。LLM(大型语言模型)在生成文本、进行对话、总结书面材料以及解决数学定理或预测蛋白质结构等更复杂的任务方面表现出了巨大的潜力。”“Meta致力于这种开放的研究模式,我们将向人工智能研究社区提供我们的新模型。”
LLaMA是一种基于Transformers架构的自回归语言模型,由Meta的基础人工智能研究(FAIR)团队开发。它比ChatGPT小很多,有四种不同的(参数)大小:70亿、130亿、330亿和650亿参数。作为比较,ChatGPT所基于的GPT-3.5模型使用1750亿参数进行了训练。
Meta在Token上训练了LLaMA,这些Token是单词片段而不是完整的单词,这使得模型更容易重新训练和针对特定的潜在用例进行微调:“我们在1.4万亿Token上训练LLaMA 65B和LLaMA 33B。我们最小的模型LLaMA 7B在1万亿Token上进行训练。该公司从20种最常用的语言中选择了训练文本,并将重点放在拉丁语和西里尔字母上。
Meta表示,像LLaMA规模的模型可以使那些无法访问大规模基础设施(因为费用很高)的人能够研究这些模型。在大型语言模型当道之时,像LLaMA这样的较小基础模型更有价值,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新用例。
像ChatGPT和Bard一样,LLaMA也没有摆脱困扰LLM的问题,包括混乱、偏见和产生有害内容。Meta断言,由于资源限制,对这些模型的全面研究仍然有限,阻碍了理解这些模型和缓解这些已知问题的进展。
Meta表示,LLaMA是在非商业许可证下发布的,专注于研究应用,并将根据具体情况授予学术研究人员、民间和政府组织以及行业研究实验室访问权限。
Meta希望通过共享LLaMA的代码,研究人员可以测试限制LLM中这些问题的新方法。在其研究论文中,该公司提供了一套评估模型偏差和毒性的基准评估,以显示LLaMA的局限性,并支持该领域的进一步研究。
该公司指出,这些基础模型是基于大量未标记的数据进行训练的,因此非常适合针对不同任务进行微调。FAIR团队使用来自CCNet、C4、GitHub、Wikipedia、books、ArXiv和Stack Exchange的公开数据对模型进行了训练,其中67%的数据来自CCNet。
Meta声称,在BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC和OpenBookQA等基准测试中,其LLaMA 13B模型在运行于单个GPU上时,性能优于GPT-3,这可能为未来使用消费者级硬件开发基于该模型的应用程序奠定了基础。
该公司表示:“我们相信,整个人工智能开发社区、学术研究人员、民间机构、决策者和行业必须共同努力,围绕负责任的人工智能,特别是负责任的大型语言模型,制定明确的指导方针。我们期待着看到社区可以使用LLaMA学习并最终构建出什么来。”
领取专属 10元无门槛券
私享最新 技术干货