首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大语言模型简明指南

编者按:随着技术的进步和计算资源的提升,大型语言模型(LLMs)在自然语言处理、机器翻译、代码生成等领域展现出了惊人的表现。Databricks 编撰的 “A Compact Guide to Large Language Models”(大语言模型简明指南)简明扼要地介绍了大型语言模型(LLMs)的发展历程和应用领域。LLMs 通过 ChatGPT 等服务使得普通用户可以轻松接触这一先进技术,引发公众对生成型人工智能的广泛关注。同时,开源社区也在不断推进 LLMs 的发展,提供了更多灵活、可定制的选择。然而,需要注意LLMs并不是绝对准确的事实机器,用户应谨慎对待其输出。对于想要开始使用LLMs的用户,可以根据自身需求选择专有服务或开源模型,并结合强大的数据基础进行应用,以解决复杂的任务和挑战。我们特将该内容编译出来和各位客户、合作伙伴朋友分享。如需转载,请联系我们(ID:15937102830)】

01

大型语言模型(LLM)的定义

大型语言模型是设计用于处理和分析大量自然语言数据,并利用该信息生成对用户提示的响应的人工智能系统。这些系统通过使用先进的机器学习算法在庞大的数据集上进行训练,从而学习人类语言的模式和结构,并能够对各种书面输入生成自然语言响应。大型语言模型在自然语言处理、机器翻译、代码和文本生成等多种应用中变得越来越重要。

注:尽管本指南将着重介绍语言模型,但重要的是要理解它们只是更大生成型人工智能范畴中的一个方面。其他值得注意的生成型人工智能实现包括通过文本生成艺术等项目。

极其简要的历史背景和大型语言模型的发展:

1950s–1990s

最初人们尝试通过对语言进行硬性规则的映射,并按照逻辑步骤完成诸如将一种语言的句子翻译成另一种语言的任务。

虽然这种方法有时候有效,但严格定义的规则只适用于系统已经了解的具体、明确定义的任务

1990s

语言模型开始演变为统计模型,并且语言模式开始被分析,但是由于计算能力的限制,大规模的项目受到限制。

2000s

机器学习的进步增加了语言模型的复杂性,并且互联网的广泛应用导致可用的训练数据大幅增加。

2012

深度学习架构的进步和更大规模的数据集导致了GPT(Generative Pre-trained Transformer)的发展。

2018

谷歌推出了BERT(Bidirectional Encoder Representationsfrom Transformers),这是在架构上的一大飞跃,并为未来的大型语言模型铺平了道路。

2020

OpenAI发布了GPT-3,它成为了拥有1750亿参数的最大模型,并为与语言相关的任务设立了新的性能基准。

2022

ChatGPT被推出,将GPT-3和类似模型转化为一个通过Web界面广泛向用户提供服务的平台,并引发了公众对大型语言模型和生成型人工智能的巨大关注。

2023

开源的大型语言模型(LLMs)开始展现越来越令人印象深刻的结果,其中包括Dolly 2.0、LLaMA、Alpaca和Vicuna等版本的发布。同时,GPT-4也发布了,为参数规模和性能都设立了新的基准。

02

理解大型语言模型

什么是语言模型,以及它们是如何工作的?

大型语言模型是先进的人工智能系统,接受一些输入并生成类似人类文本的响应。它们的工作原理首先是分析大量数据,创建内部结构来模拟其训练所使用的自然语言数据集。一旦这个内部结构被建立,模型就可以接受自然语言形式的输入,并近似地生成一个合适的响应。

如果它们已经存在这么多年,为什么现在才成为头条新闻?

最近的一些进展真正将聚光灯聚焦在生成型人工智能和大型语言模型上:

技术进步:

在过去几年中,训练这些模型所使用的技术有了显著的进步,导致性能的大幅提升。值  得注意的是,性能的一个最大飞跃来自于将人类反馈直接整合到训练过程中。

增加的可访问性:

ChatGPT的发布为任何拥有互联网访问权的人打开了一扇门,使他们可以通过简单的Web界面与最先进的大型语言模型之一进行交互。这将大型语言模型的显著进步带入聚光灯下,因为之前这些更强大的大型语言模型只对拥有大量资源和深入技术知识的研究人员可用。

计算能力的增强:

更强大的计算资源,如图形处理单元(GPUs),以及更好的数据处理技术使得研究人员能够训练更大的模型,从而提高了这些语言模型的性能。

数据集的改进:

随着我们在收集和分析大量数据方面的进步,模型的性能得到了显著提高。事实上,Databricks展示了使用高质量数据集对相对较小的模型进行训练可以获得惊人的结果,其中Dolly 2.0是一个例子(我们也发布了databricks-dolly-15k数据集)。

公司及组织如今如何利用大型语言模型?

以下是大型语言模型常见用例的几个例子:

聊天机器人和虚拟助手:

这是最常见的应用之一,组织可以利用大型语言模型为客户支持、故障排除等提供帮助,甚至可以通过用户提供的提示进行开放性对话。

代码生成和调试:

大型语言模型可以在大量代码示例上进行训练,并以自然语言的形式为请求提供有用的代码片段作为响应。通过合适的技术,大型语言模型还可以建立在引用其他相关数据的基础上,即使它可能没有进行过训练,例如公司的文档,以提供更准确的响应。

情感分析:

情感分析通常是一个难以量化的任务,大型语言模型可以帮助对一段文本进行情感和观点的衡量。这可以帮助组织收集数据和反馈,从而改善客户满意度。

文本分类和聚类:

能够对大量数据进行分类和排序,使得可以识别共同主题和趋势,支持明智的决策和更有针对性的战略。

语言翻译:

通过简单地将网页输入适当的大型语言模型,就可以全球化您的所有内容,而无需费时费力。随着越来越多的大型语言模型在其他语言上进行训练,翻译质量和可用性将持续改进。

摘要和改写:

可以高效地对整个客户电话或会议进行摘要,以便他人更容易理解内容。大型语言模型可以将大量文本压缩成最重要的要点。

内容生成:

从详细的提示开始,让大型语言模型为您制定大纲。然后继续使用这些提示,大型语言模型可以为您生成一个良好的初稿供您继续完善。可以利用它们来产生创意,向大型语言模型提问以帮助您从中获得灵感。

注:大多数大型语言模型并不是被训练成事实机器。它们知道如何使用语言,但可能不知道去年谁赢得了大型体育赛事。在使用它们作为参考之前,始终要进行事实核查并理解其响应的内容。

03

应用大型语言模型

在应用大型语言模型时,有几种可能的路径供选择。一般来说,可以将它们分为两大类,但它们之间也有一些交叉。我们将简要介绍每种路径的优缺点,以及哪些情况最适合使用它们。

作为首个广泛可用的由大型语言模型驱动的服务,OpenAI的ChatGPT成为将大型语言模型推向主流的爆发点。ChatGPT提供了一个友好的用户界面(或API),用户可以将提示输入其中的多个模型(如GPT-3.5、GPT-4等),并通常可以快速得到响应。这些模型是性能最高的模型之一,它们在大规模数据集上进行训练,能够完成非常复杂的任务,包括技术方面的代码生成,以及创造性方面的按特定风格写诗。

然而,这些服务的缺点是需要绝对巨大的计算能力,不仅用于训练它们(OpenAI表示GPT-4的开发成本超过1亿美元),还用于提供响应。因此,这些极大型模型可能始终受到组织的控制,并需要您将数据发送到他们的服务器以与其语言模型进行交互。这引起了隐私和安全的担忧,并使用户面临“黑盒子”模型,他们对其训练和保护措施没有控制权。此外,由于所需的计算能力,除非在非常有限的使用情况下,这些服务并不免费,因此成本成为在规模应用时的一个因素。

总结:专有服务非常适合于处理非常复杂的任务,如果您愿意与第三方分享数据,并且准备承担在任何大规模操作中产生的费用。

开源模型:

另一种获取语言模型的途径是参与开源社区,在过去几年里,开源社区也出现了类似的爆炸性增长。像Hugging Face这样的社区聚集了成千上万个来自贡献者的模型,可以帮助解决许多特定的用例,比如文本生成、摘要和分类。开源社区的性能正在迅速赶上专有模型,但最终还没有达到类似GPT-4的性能水平。

目前获取开源模型并开始使用它们可能需要更多一点的工作,但进展很快,使它们更加易于用户访问。例如,在Databricks上,我们改进了像MLflow这样的开源框架,使有一定Python经验的用户可以轻松地提取任何Hugging Face Transformer模型并将其用作Python对象。通常情况下,你可以找到一个解决你特定问题的开源模型,其大小比ChatGPT小很多个数量级,允许你将模型引入你的环境并自行托管。这意味着你可以对数据进行隐私和治理,同时控制成本。

使用开源模型的另一个巨大优势是可以对其进行微调以适应自己的数据。由于你不需要处理专有服务的黑盒子,有一些技术可以让你对开源模型进行微调,使其适用于你的特定数据,从而极大地提高在你特定领域上的性能。我们相信语言模型的未来将朝着这个方向发展,越来越多的组织将希望完全控制和理解他们的大型语言模型。

结论和一般指导原则:

最终,每个组织都将面临独特的挑战,对于大型语言模型来说,并没有一种适合所有情况的方法。随着世界变得更加数据驱动,包括大型语言模型在内的一切都将依赖于坚实的数据基础。大型语言模型是令人难以置信的工具,但它们必须在坚实的数据基础上使用和实施。像 Databricks 和 MoPaaS 等公司都提供了坚实的数据基础以及集成的工具,让您能够在您的领域中使用和微调大型语言模型。

一款AI生成头像工具,可以生成各种风格的头像,快来试试吧~

源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS魔泊云) 是中国领先的人工智能(AI) 平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 魔泊云在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的GPU算力优化和规模化AI模型开发运维 (ModelOps) 能力和服务。MoPaaS魔泊云 AI平台已经服务在教学科研、工业制造、能源交通、互联网、医疗卫生、政府和金融等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS魔泊云致力打造全方位开放的AI技术和应用生态。同时,MoPaaS魔泊云在浙江嘉兴设立安尚云信信息科技有限公司全资子公司,致力于推动当地的科技产业发展,并积极培养本地专业技术人才,创造更大的社会和经济效益。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者(Strong Performer)。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OuC8tg7ROjLEQJXRHC5kgpXA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券