文章/答案/技术大牛

发布

产品经理视角下的大模型原理及其能力边界

文章来源：企鹅号 - Nam的心智代码

最近一直在思考GPT类大模型的能力和边界，今天这篇会以chatGPT为主，聊聊大模型的原理和边界。

本篇会分为以下三个部分：

先聊聊chatGPT的原理

讨论一下chatGPT的能力边界和局限

再聊聊AI时代产品经理的机遇和挑战

大家可以选择性的进行阅读，对自己不感兴趣的部分略过。

chatGPT的原理

chatGPT的核心机制可概括为四个字:文字接龙

当你给chatGPT一个句子的时候，它会预测这个句子的下一个字应该接什么，预测出来的字有很多，它会赋予这些字一个概率，然后进行一次掷骰子，根据骰子的结果选择对应的字接上。

听起来很离谱是不是，但事实就是这样。当你问chatGPT一个问题，并不代表它理解了这个问题，而只是和你一次次玩投骰子的游戏罢了。这也是有时候会胡编乱造(AI幻觉)的原因之一。

chatGPT解析

当你第一次看到chatGPT的时候是否有这样的疑惑，chatGPT中的chat很好理解，那GPT代表了什么?

GPT就是Generative + Pre-trained + Transformer，Generative很好理解，我们重点介绍一下Pre-trained和Transformer

Pre-trained预训练

当一个新的大模型发布的时候，我们总是会看到类似的字眼:xxx公司发布了用xxxTB数据训练的xxx亿参数的模型。这里是参数是指模型在训练过程中学习到的内部变量，用于控制模型的行为和预测结果，而预训练就是找这些参数的过程。前面的xxxTB就是指预训练使用到的数据量。

预训练对于大模型而言是非常关键的步骤，大模型通过预训练从海量数据中学习到通用的知识和能力，从而具备处理各种复杂任务的潜力。

Transformer

2017年谷歌发布了一篇论文《Attention is all you need》，提出了一种深度学习模型架构Transformer。其核心创新在于自注意力机制(Self-Attention Mechanism)，它使模型能够有效地捕捉输入序列中不同位置之间的依赖关系，并且能够进行并行计算，大大提高了训练效率和模型性能，它的发布可以看作是NLP(自然语言处理)领域的一次“工业革命”。

在Transformer诞生前，NLP领域一般使用RNN(循环神经网络)，你可以理解把RNN理解成一个 逐字逐句阅读理解的人，它必须按顺序阅读文章的每个字、每句话，才能慢慢理解文章的意思。

而Transformer就像一个拥有上帝视野的人，它可以同时关注文章中的所有词句，从而更高效、更全面地理解文章的整体意思。

Transformer模型通常采用Encoder-Decoder架构，Encoder负责输入的内容翻译成计算机更好理解的语义向量，而Decoder则根据Encoder转换后的信息，创造出新的内容。

Encoder的双向性和Decoder的单向性Encoder的双向性和非掩码自注意力

Encoder 在处理输入序列时，是双向地 扫描整个序列的。这意味着在处理序列中的某个位置 (例如，某个词语) 时，Encoder 可以同时看到这个位置之前和之后的所有信息。信息可以从序列的左边流向右边，也可以从右边流向左边。这种双向的信息流动使得 Encoder 能够充分理解整个输入序列的上下文信息。

比如做阅读理解时，你需要通读全文 (整个输入序列)，理解文章的整体意思 (全局上下文)，才能更好地回答问题。你可以自由地在文章的不同部分之间跳转和查阅信息，不受顺序限制。

Decoder的单向性和掩码自注意力

Decoder 在生成输出序列时，是单向地、自回归地 进行的。这意味着在生成序列中的某个位置 (例如，某个词语) 时，Decoder 只能看到这个位置之前已经生成的信息，以及来自 Encoder 的输入信息，但看不到当前位置之后的信息 (因为那些信息还没有被生成出来)。信息只能从序列的左边流向右边 (在生成过程中)。这种单向的信息流动保证了 Decoder 生成过程的顺序性和因果关系。

比如写作或讲故事时，你需要一句一句、按顺序地进行 (生成输出序列)。你在写当前句子时，只能参考之前已经写好的内容 (之前的输出)，而不能预知未来要写什么 (未来的输出)。你的思路是单向流动的，从开头到结尾。

现在你已经了解了Encoder的双向性和Decoder的单向性，你是否已经看出Decoder做的事是不是很像chatGPT做的事。事实上，chatGPT就是基于Transformer架构的Decoder部分。Decoder 的 单向性和掩码自注意力机制天然契合文本生成的特性，使得 GPT 能够高效、高质量地生成文本。相比之下，Encoder 的双向性和 Encoder-Decoder 结构的复杂性，对于纯粹的文本生成任务来说，并非必需，甚至可能降低效率。

指令微调(Instruction Fine-tuning)

现在你有了一个用大量数据预训练过的模型，它已经有了海量的知识，但是它不知道如何使用这些知识去解决人类提出的问题，人类提问时，它可能会回答一些奇奇怪怪的东西，这时候就需要人类教它怎么使用这些知识。

指令微调(Instruction Fine-tuning)就是利用指令数据集进行训练。指令数据集里包含了人类设定好的指令和指令对应的理想输出。目的就是让模型如何根据人类的指令生成合适的回复。

人类反馈强化学习（RLHF）

现在你的模型经过了预训练和指令微调，但它回答可能仍然有一些问题，可能不够符合人类的价值观和偏好。所以需要人类来对模型的回答进行反馈，模型根据反馈的好坏来调整自己的回答，使其能更符合人类的偏好。

我们在使用chatGPT的时候可以看到每条回答的下方都有反馈按钮，这也是RLHF的一部分，但你对某个回答不满意，点了没有帮助的按钮，那模型可能就会降低出现类似回答的概率。

总结

说了这么多，我们可以在技术上把chatGPT总结成：Transformer Decoder + 海量文本数据预训练 + 指令微调 + 人类反馈强化学习

这四个关键技术的配合造就了chatGPT强大的对话能力和智能水平。

当然，在行为上你仍然只用记住：chatGPT是在做文字接龙罢了。

chatGPT的能力边界和局限

了解了chatGPT的原理，我们自然会对其的能力边界和局限有一定的了解，已经它会给我们的产品带来哪些影响

能力边界和局限

对问题缺乏真正的理解

chatGPT是在做文字接龙，并且下一个字的生成是基于统计学习和模式匹配，而非像人类一样具有深层次的理解和逻辑推理。它看似可以生成连贯的的文本，但并不意味着它真正理解了文本的含义。

也正是因为缺乏理解，chatGPT容易被一些精心设计的问题或对抗性攻击所欺骗和误导，导致生成一些错误、荒谬甚至有害的回答。

幻觉

chatGPT看似能生成连贯流畅的文本，但并不代表着它生成的内容是准确和可信的，它可能是一本正经地在胡说八道。所以在某些需要事实准确性的场景下，需要人工的二次核对和验证。

偏见与歧视

因为chatGPT的训练数据来自于互联网，一些带有偏见和歧视的数据可能会被chatGPT继承甚至是放大，导致生成带有偏见和歧视的内容。在应用chatGPT时，我们应该采取措施来减轻或消除可能存在的偏见和歧视，提升模型的公平性和伦理水平。

推理能力和常识的不足

chatGPT更擅长记忆和模仿已有的知识和模式，而不是创造和发明新的知识和方法。在需要深度思考、复杂判断、创新性解决问题 的场景下，仍然需要人类的智慧和经验，ChatGPT 只能作为辅助工具，而无法完全替代人类。

尽管大模型可以通过海量文本数据学习到大量的知识，但它们仍然缺乏人类所拥有的那种基于经验和常识的世界知识

Prompt敏感性

chatGPT的输出结果很大程度上受到Prompt的影响。即使是细微的 Prompt 变化，也可能导致模型生成截然不同的结果。最佳Prompt 的设计往往需要经验和不断试错，缺乏明确的理论指导。

可解释性和可控性

chatGPT对于我们而言就是一个黑盒模型，当我们问一个问题时，我们无法知道它内部是如何思考并得出答案的。其难以解释的决策过程导致了我们无法预测它在不同场景下的行为。

虽然我们可以通过指令和参数调整来引导chatGPT输出，但我们无法完全控制它的生成内容。在高安全性要求的场景下，将会带来意想不到，甚至不可控的风险。

理解技术原理后，我们需进一步探讨其对产品设计的直接影响

对产品的影响

数据依赖

规模、质量与成本：训练数据的规模和质量是大模型能力的重要依赖，获取高质量、大规模、无偏见的训练数据需要投入大量的资源和成本

范围界定：在训练数据未覆盖的领域或场景，模型的泛化能力会显著下降

内容管控

偏见和歧视：如果训练数据中存在社会偏见（例如性别歧视、种族歧视等），模型也会学习并放大这些偏见，导致产品输出不公平或歧视性的结果

可靠性：在信息检索、问答、新闻摘要等需要高度事实准确性的产品中，幻觉会严重损害产品的可信度

法律和伦理：在某些领域，例如医疗、法律等，错误信息的后果可能非常严重，甚至引发法律和伦理问题

使用体验

学习成本：用户需要学习如何编写有效的 Prompt 才能获得期望的输出，这增加了用户的使用难度和学习成本

一致性：相同的需求，用户可能因为用了不同的Prompt而得到不同的输出

总之，chatGPT的能力的确令人瞩目，但我们也要清醒地认识到它们现阶段仍然存在诸多边界，平衡技术边界和用户体验之间的关系，也是作为AI产品经理的核心挑战。

产品经理的机遇与挑战

一个新技术的出现，必然会带来新的产品机会和创新方向。随着chatGPT类的大模型为AI开启新的时代，基于AI的新型产品形态以及新的商业模式都会如雨后春笋般冒出来。

除此之外，当前的产品也会迎来AI的赋能，提升现存产品的效率并降低成本，这可能是一个缓慢但是明确的过程。当下AI产品经理或许是一个细分方向，但以后AI将成为产品经理的一个基本能力。

对于各行各业与AI结合的文章已经很多的，今天我想从其他方面聊聊产品经理的机遇和挑战。

角色演变

传统产品经理更多关注需求的挖掘、功能设计和流程优化等。核心是围绕功能本身进行迭代和完善。他们的价值体现在交付满足用户需求的产品功能。而AI技术的本质是数据驱动的智能决策和自动化，如何编排AI，整合数据、算法、场景，构建智能化的价值闭环会成为产品经理新的衡量标准。

所以设计和驱动 AI 系统持续创造价值，而不仅仅是交付静态的产品功能将成为未来产品经理的核心价值。

要掌握AI编排能力，就要求产品经理具备更强的系统思维、数据思维、算法思维，以及更强的跨领域协作能力。他们需要理解 AI 的运作逻辑，同时高效的和AI团队交流，才能有效地编排 AI 能力，达成业务目标。

价值创造

过往产品的价值往往通过功能完整性、易用性和性能指标等衡量，核心是功能是否满足用户的显性需求。AI时代的产品价值不仅仅是提供某些功能，而在于提供智能化的用户体验，高效且简单地解决过去难以解决的复杂问题。

当然，智能体验是主观和动态的概念，质量、准确性、自动化程度以及对用户体验的提升都是AI产品的价值体现。那么如何定义和量化这些价值，值得新时代的产品经理去思考。

行业影响

传统产品的创新往往是在现有的框架内进行局部优化，对行业整体格局的影响有限。而大模型为代表的AI技术具有的颠覆性，能够重塑整个行业格局，甚至是改变社会形态。那产品经理的角色不再仅仅是优化现有产品，而是推动行业智能化转型，创造全新的产业生态。

行业重塑那就意味着更大的责任和当担。作为产品经理就需要更广阔的视野和社会责任感，避免在推动行业变革的同时，带来负面影响，确保技术向善。

最后

很多年后回头看，当下或许就是另一个时代的开始，希望我们都能看清这个时代，然后做顺应时代的事。

发表于: 2025-02-182025-02-18 17:48:08
原文链接：https://page.om.qq.com/page/OhSG8GVoTWhFXAYvLFITGEXA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

产品经理视角下的大模型原理及其能力边界

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐