前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大语言模型(LLM)

大语言模型(LLM)

作者头像
产品言语
发布2023-09-09 08:53:38
7090
发布2023-09-09 08:53:38
举报
文章被收录于专栏:产品笔记

研究者们发现通过扩大预训练语言模型的参数量和数据量,大语言模型(Large Language Model)能够在效果显著提升的同时,展示出许多小模型不具备的特殊能力(如上下文学习能力、逐步推理能力等)。最近,作为代表性的大语言模型应用ChatGPT展现出了超强的人机对话能力和任务求解能力,对于整个AI研究社区带来了重大影响。01

什么是大语言模型?

深度学习是机器学习的分支,大语言模型是深度学习的分支。

机器学习是人工智能(AI)的一个子领域,它的核心是让计算机系统能够通过对数据的学习来提高性能。在机器学习中,我们不是直接编程告诉计算机如何完成任务,而是提供大量的数据,让机器通过数据找出隐藏的模式或规律,然后用这些规律来预测新的、未知的数据。

深度学习是机器学习的一个子领域,它尝试模拟人脑的工作方式,创建所谓的人工神经网络来处理数据。这些神经网络包含多个处理层,因此被称为“深度”学习。深度学习模型能够学习和表示大量复杂的模式,这使它们在诸如图像识别、语音识别和自然语言处理等任务中非常有效。

大语言模型是深度学习的应用之一,尤其在自然语言处理(NLP)领域。这些模型的目标是理解和生成人类语言。为了实现这个目标,模型需要在大量文本数据上进行训练,以学习语言的各种模式和结构。如 ChatGPT,就是一个大语言模型的例子。被训练来理解和生成人类语言,以便进行有效的对话和解答各种问题。

通常来说,大语言模型指的是那些在大规模文本语料上训练、包含百亿级别(或更多)参数的语言模型,例如GPT-3,PaLM,LLaMA等。目前的大语言模型采用与小模型类似的Transformer架构和预训练目标(如 Language Modeling),与小模型的主要区别在于增加模型大小、训练数据和计算资源。大语言模型的表现往往遵循扩展法则,但是对于某些能力,只有当语言模型规模达到某一程度才会显现,这些能力被称为“涌现能力”,代表性的涌现能力包括上下文学习、指令遵循、逐步推理等。目前,大语言模型取得如此巨大的成就,总结了五方面原因:模型、数据和计算资源的扩展;高效稳定的训练手段;语言模型能力诱导;对齐训练,将大语言模型与人类偏好对齐;工具使用(潜在发展方向);


02

大语言模型预训练和微调技术

大型通用语言模型可以进行预训练,然后针对特定目标进行微调。

预训练是大语言模型能力的基础。当语言模型的参数量扩展到超千亿级别时,从头预训练一个大语言模型就成为一件十分困难且有挑战的事情。在数据层面,如何收集尽可能多的高质量语料对预训练模型的效果十分关键。现有大语言模型预训练数据中各种数据源的比例如下。

预训练之后,“适配微调”(adaptation tuning)可以进一步增强大语言模型能力并满足人类偏好。常用的两种适配微调技术:指令微调与对齐微调。

指令微调通过收集指令格式的实例来微调大模型,大大增强了模型遵循人类指令的能力,能够让模型更好地泛化到未知任务。

对齐微调通过收集人类反馈数据,利用强化学习进一步微调大模型,使模型与人类对齐,更加符合人类的偏好。

大型语言模型被训练来解决通用(常见)的语言问题,如文本分类、问答、文档总结和文本生成等。

(1)文本分类:大型语言模型可以通过对输入文本进行分析和学习,将其归类到一个或多个预定义的类别中。例如,可以使用大型语言模型来分类电子邮件是否为垃圾邮件,或将推文归类为积极、消极或中立。 (2)问答:大型语言模型可以回答用户提出的自然语言问题。例如,可以使用大型语言模型来回答搜索引擎中的用户查询,或者回答智能助手中的用户问题。 (3)文档总结:大型语言模型可以自动提取文本中的主要信息,以生成文档摘要或摘录。例如,可以使用大型语言模型来生成新闻文章的概要,或从长篇小说中提取关键情节和事件。 (4)文本生成:大型语言模型可以使用先前学习的模式和结构来生成新的文本。例如,可以使用大型语言模型来生成诗歌、短故事、或者以特定主题的文章。

03

大语言模型的特征

大型通用语言模型可以进行预训练,然后针对特定目标进行微调。

Large(大):在"大语言模型"的上下文中,"大"主要有两层含义。一方面,它指的是模型的参数数量。在这些模型中,参数的数量通常会非常大,达到数十亿甚至数百亿。这使得模型能够学习和表示非常复杂的模式。另一方面,"大"也指的是训练数据的规模。大语言模型通常在大规模的文本数据上进行训练,这种数据可以来自互联网、书籍、新闻等各种来源。

General-purpose(通用):这个词描述的是模型的应用范围。通用语言模型在训练时使用了来自各种领域的数据,因此它们能够处理各种类型的任务,不仅限于某一个特定的任务或领域。这使得这些模型在处理新的、未见过的任务时具有很强的泛化能力。

Pre-trained and fine-tuned(预训练和微调):这是描述模型训练过程的关键词。在预训练阶段,模型在大规模的通用文本数据上进行训练,学习语言的基本结构和各种常识。然后,在微调阶段,模型在更小、更特定的数据集上进行进一步的训练。这个数据集通常是针对某个特定任务或领域的,例如医学文本、法律文本,或者是特定的对话数据。微调可以让模型更好地理解和生成这个特定领域的语言,从而更好地完成特定的任务。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 产品言语 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档