首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文穿读大模型核心概念

一文穿读大模型核心概念

原创
作者头像
jasong
发布2025-09-24 16:06:52
发布2025-09-24 16:06:52
1290
举报
文章被收录于专栏:LLVMLLVMByConityLakeHouse

一文穿读大模型核心概念

大模型的技术体系看似复杂,实则能按核心逻辑层层拆解:最初,人们以“万物皆函数(Function)”为起点,先尝试用符号主义(Symbolism)解释所有原理,随后转向联结主义(Connectionism)构建复杂函数链条——把前一个函数的输出当作后一个函数的输入,由此诞生了包含输入层、隐藏层、输出层的神经网络(Neural Network)。而模型(Model)的本质是多个函数的组合,权重(Weight)是模型内的抽象参数;当参数规模达到一定量级,具备“量变引发质变”的能力时,便形成了“大模型(Large Model)”,其中专注自然语言处理(NLP, Natural Language Processing)的分支,就是大语言模型(LLM, Large Language Model)。

模型的全生命周期围绕“训练-应用”闭环展开:训练(Training)是调整参数的核心环节,让模型从数据中学习规律;预训练(Pretraining)是让模型在海量数据上提前完成基础学习,打好通用能力(如语言理解)的底子;微调(Fine-tuning)则针对具体任务优化模型,比如让预训练模型适配法律文本分析、医疗报告生成等细分场景;推理(Inference)则是参数固定后,模型接收输入、输出结果的实际应用环节,像对话生成、文本摘要等都属于推理过程。

从模型分类与部署逻辑来看,“涌现(Emergence)”是大模型的关键特性——当数据量积累到临界点,模型会突然具备未专门训练过的能力,比如逻辑推理、跨领域联想。以ChatGPT为代表的交互工具,其底层依赖的是OpenAI推出的闭源模型GPT(Generative Pre-trained Transformers),技术落地遵循“代码→权重→服务”的核心路径。按开放程度划分,模型主要分为三类:闭源模型(Closed-source Model),比如ChatGPT、Gemini,不开放源代码和权重;开放权重模型(Open-weight Model),比如DeepSeek、LLaMA,不开放源代码但公开权重,方便用户基于权重微调;完全开源模型(Fully Open-source Model),源代码与权重均开放,支持深度定制。而私有化部署(Private Deployment)是将开源模型落地到本地环境的主流方式,整个数据处理需遵循“文字→Token(文本处理最小单位)→数字→Embedding(词嵌入,将文本转为向量)→Attention(注意力机制,捕捉语义关联)→输出”的完整转化流程。

生成式AI(GI, Generative AI)是当前大模型的核心应用方向,本质是根据输入内容动态推理“下一个Token”,进而生成文本、图像、视频等多样化新内容。其中,Token是大模型处理文本的基本单位,上下文(Context)与提示词(Prompt)共同决定回答的逻辑流程与输出风格;提示词工程师(Prompt Engineer)的核心工作,就是优化与模型的交互策略,让输出更贴合需求。为避免生成内容过于单一,需要通过随机数(Randomness)调控输出多样性,常用参数有温度(Temperature)和Top-K:前者控制随机性的强弱,数值越高输出越灵活;后者限定候选Token的选择范围,但Top-K过大会导致“幻觉(Hallucinations)”——即模型生成无事实依据的虚假信息。而联网功能(Browsing)能通过提前检索网络信息缓解幻觉,相当于让模型“带着参考资料回答问题”。

针对幻觉问题,检索增强生成(RAG, Retrieval-Augmented Generation)是更精准的解决方案:其原理类似“私有版联网”,先从私有知识库(KB, Knowledge Base)中检索与问题相关的资料,再结合模型生成回答。为提升匹配效率,知识库中的内容需先通过词嵌入(Embedding)转化为向量形式,存储到向量数据库(Vector Database)中;后续通过向量检索(Vector Search)对比词向量的相似度,快速定位关键信息,从而确保回答的准确性与可靠性。

在生产生活场景中,内容创作模式已从专业机构生成(PGC, Professionally Generated Content)、用户生成(UGC, User Generated Content),拓展至AI辅助生成(AIGC, AI Generated Content);通用人工智能(AGI, Artificial General Intelligence)是人们对AI最终形态的设想,而当前的多模态模型(Multimodal Model)已能融合处理文本、图像、音频等多种数据类型。工作流(Workflow)工具(比如Coze、LangChain)能将多步任务(例如“文本分段→生成提示词→文生图”)编排成自动化流程;智能体(Agent)如AutoGPT、Manus,是封装工作流后可自动完成特定任务的系统;多智能体(Multi-Agent)则能通过协同合作应对更复杂的需求,比如“客服智能体+数据分析智能体”共同处理业务咨询。此外,插件系统(Plugin)与标准化协议(如MCP, Model Context Protocol、A2A, Agent-to-Agent Protocol)为智能体连接外部数据、实现跨系统通信提供了支撑,推动AI从单纯的工具向“托管式助手”升级。

为降低大模型落地成本,行业已形成多类优化方案:模型压缩(Model Compression)通过三种方式实现轻量化——量化(Quantization),比如将浮点数转为整数,减少显存占用和计算量;蒸馏(Distillation),用参数量大的模型“指导”小模型学习,保留核心能力;剪枝(Pruning),删除模型中的冗余神经元,提升运行效率。低秩适应(LoRA, Low-Rank Adaptation)技术能大幅降低微调成本,无需修改模型全部参数即可适配任务;思维链(Chain-of-Thought)可提升模型的推理能力,让复杂问题拆解更有条理;人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback)则能让模型的输出更贴合人类的需求和价值观。当前主流的商业化路径有两种:“套壳”即封装模型为可直接使用的服务,“卖铲子”即提供AI开发工具,帮助更多人落地大模型应用。

从用户类型来看,普通用户可直接使用垂直领域工具:NLP领域有Claude、Gemini、DeepSeek、豆包(Dubao)、通义千问等,能处理聊天、文案生成等需求;计算机视觉(CV, Computer Vision)领域有Midjourney、Stable Diffusion、ComfyUI等,专注图像生成与编辑;语音领域涵盖文字转语音(TTS, Text-to-Speech)与语音转文字(ASR, Automatic Speech Recognition)技术,满足音频交互需求;视频领域有Sora、Kling、即梦等生成工具,数字人(Digital Human)技术则进一步拓展了AI的交互形态。

底层开发用户则需要掌握三类工具:硬件方面,包括GPU(Graphics Processing Unit,如NVIDIA H100显卡)、NVIDIA的CUDA框架、TPU(Tensor Processing Unit,谷歌的AI专用芯片)、NPU(Neural Processing Unit,手机等终端设备的AI加速芯片);软件方面,需掌握Python编程语言,以及PyTorch、TensorFlow等深度学习框架;平台工具方面,包括Hugging Face开源社区、Ollama本地大模型运行工具、vLLM推理加速引擎,还有Cursor、Copilot等AI编程助手。

若想深入学习大模型,需先夯实技术基础:数学(Mathematics)是理论支撑,尤其是线性代数(向量、矩阵运算)与微积分(梯度下降原理);神经网络(Neural Network)是核心框架,还需理解损失函数(Loss Function,衡量模型预测误差的指标)、反向传播(Backpropagation,调整模型参数的核心算法)等训练原理;掌握多层感知机(MLP, Multi-Layer Perceptron)、卷积神经网络(CNN, Convolutional Neural Network,适合处理图像数据)、循环神经网络(RNN, Recurrent Neural Network,适合处理文本等序列数据)等经典网络结构。其中,注意力机制(Attention)与Transformer架构是理解现代大模型的核心,是打通“基础理论”与“前沿应用”的关键桥梁。

二 小本本

大基础基础

  • Function (函数) 开始大家认为万物皆函数
  • Symbolism (符号主义) 解释一切原理
  • Connectionism(联结主义) 后来尝试时使用联结主义解释一切原理,非常复杂的函数 当前函数的输出,是下个函数的输入 有了 输入层、隐藏层、输出层 ->神经网络
  • Model (模型) 多个函数的组合
  • Weight (权重) 模型内的参数,是一个抽象概念
  • Large Mode (大模型) 代表了模型内的参数特别大,即大模型
  • LLM Large Language Model (大语言模型 LLM ) 用于自然语言处理的模型
  • Training (训练) 参数的调整过程
  • Pretraining (预训练) 提前训练好的模型
  • Fine-tuning (微调) 模型学会具体的任务
  • Inference (推理)参数调整好后,输出结果的过程

模型分类与部署

  • Emergence(涌现) 模型数据量急剧增多,量变-》质变
  • ChatGPT(模型工具代表) 聊天产品,
  • GPT (Generative Pre-trained Transformers) ChatGPT 底层模型,公司OpenAI 闭源
  • 代码->权重->服务
  • Closed-source Model (闭源模型) 不开放源代码,不开放权重 ChatGPT Gemini
  • Open-weight Model (开放权重) 不开放源代码 Deespeek ,LLma
  • Fully Open-source Model(完全开源)
  • Private Deployment (私有化部署) 将开源模型,本地部署

文字-Token-数字-Embedding-Attention-输出

GI 生成式AI

  • GI Generative AI (生成式 AI) 根据前面的词,不断推理计算下一个词的过程(即根据输入内容,生成新内容的人工智能系统 (问题、图像、视频..)
  • Token (词。。)大模型文本处理基本单位
  • 上下文(Context)从另外一个角度可以叫 提示词(Prompt)最终回答流程和风格
  • Prompt Engineer (提示词工程师) :即教你如何跟大模型说话
  • Randomness (随机数) 让下一个词的生成,并不是采用出现概率最高的那个词
  • Temperature (随机数参数)
  • Top-K (随机数参数 选择范围), K小过于保守,K大开始胡说
  • Hallucinations (幻觉) k大导致,即虚假信息
  • Browsing (联网) 主要为了解决 幻觉问题,回答问题钱,先借鉴网络先进行查找信息 + 你的输入 推送到大模型,有一点带着答案回答问题的意思
  • 炸裂体

RAG 解决大模型幻觉问题

  • RAG Retrieval-Augmented Generation (检索增强生成) 类似联网,先查文库资料(私有数据库 KB )再回答问题
  • KB Knowledge Base (知识库)
  • Vector Database (向量数据库) 让模型与知识库更加的匹配,将知识库存储在向量数据库中
  • Embedding (词嵌入) 把文字转换成词向量的过程
  • Vector Search (向量检索)对比词向量之间的相似度,在向量数据库中找到相关问题的答案

AI. 生产-生活

  • PGC (Professionally Generated Content ) 专业机构
  • UGC (User Generated Content ) 普通机构
  • AIGC(AI Generated Context ) AI辅助创建的内容
  • AGI (通用人工智能AGI Artificial General Intelligence ) 人们对于人工智能最终形态的幻想
  • Multimodal (多模态) 处理各类问题(问题、图像、音频)
  • Workflow (工作流) 多个步骤合并成一个流程 多次使用大模型,一个需求,多个步骤,先分段、然后生成段落提示词、最终段落生成图片, 产品 Coze ,LangChain 使用代码编排工作流
  • Agent (智能体) 按照工作流封装大模型,自动完成某一个任务的过程 AutoGPT、Manus
  • Multi-Agent (多智能体)多个智能体,互相协作,完成更复杂的任务
  • Plugin (插件系统) -。。。。
  • MCP Model Context Protocol (AI 系统标准化的协议 即统一标准)AI操作外部世界的接口 智能体需要操作,引用各种数据、上网、操作手机上数据,最终实现托管的能力
  • A2A (Agent-to-Agent Protocol) Agent 与Agent 之间的通信

卷起来 将本增效

  • Model Compression (模型压缩)
  • Quantization (量化) 精度降低 比如浮点数->整数 减少显存、减少GPU 计算
  • Distillation (蒸馏) 通过参数量大的大模型,指导参数量小的小模型
  • Running (剪枝) 删除模型中不重要的神经元。让模型更稀疏,已提高速度
  • LoRA (Low-Rank Adaptation) 使用更低成本, 微调
  • Chain-of-Thought (思维链) 从推理能力方向,增强模型能力
  • RLHF (人类反馈强化学习) 让模型说的话,更和人的心意
  • 套壳 (封装 并提供服务)
  • 铲子 (不直接卖金子,帮人淘金)帮人开发AI

衍生 普通用户

  • 文字相关 NLP(自然语言处理) Claude, Gemini ,Deepseek、Dubao、通义千问、腾讯元宝
  • 图片相关的 CV (计算机视觉) Midjourney 、Stable Diffusion 、ComfyUI
  • 语音相关 TTS(文字转语音) ASR(语音转文字)
  • 视频 Sora ,Kling,即梦
  • 数字人 Digital Human

衍生 底层开发用户

  • GPU 图形处理单元
  • CUDA NVIDIA 开放框架
  • TPU (Tensor Processing Unit ) 大规模神经网络训练与推理
  • NPU (Neural Processing Unint ) 终端设备的AI加速芯片
  • Python (软件) 编程语言
  • Pytorch /TensorFlow 深度学习框架
  • Hugging Face (AI开源平台及社区)
  • Ollama 本地运行大模型的工具
  • vLLM 提升大模型推理速度的引擎
  • Cursor AI编程助手,软件
  • Copilot AI编程助手,插件

如何学习

  • Mathematics (数学)线性代数,微积分
  • Nearal Network 神经网络
  • Loss Function 损失函数
  • Backpropagation 反向传播,训练参数
  • MLP 多层感知机 ,经典神经网络结构
  • CNN 卷积神经网络 图像数据处理
  • RNN 循环神经网络 序列数据处理
  • Attention 注意力机制
  • Transformer 基于Attention机制发明的架构

文章参考与感谢

https://www.bilibili.com/video/BV1xH5Dz3Eox?spm_id_from=333.788.videopod.sections&vd_source=868cb9f482f5dcef86edeeddc5cab9e3

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一文穿读大模型核心概念
  • 二 小本本
    • 大基础基础
    • 模型分类与部署
    • GI 生成式AI
    • RAG 解决大模型幻觉问题
    • AI. 生产-生活
    • 卷起来 将本增效
    • 衍生 普通用户
    • 衍生 底层开发用户
    • 如何学习
  • 文章参考与感谢
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档