人工智能已经能够参加你的会议并总结讨论，但这可靠吗？

文章来源：企鹅号 - 知新了了

微软最近推出了其所有软件的新版，增加了一个人工智能（AI）助手，可以为你完成各种任务。

Copilot可以总结团队在线会议上的口头对话，根据口头讨论提出支持或反对某一特定观点的论点，并回答你的部分电子邮件。它甚至可以编写计算机代码。

这种快速发展的技术似乎让我们更接近这样一个未来：人工智能使我们的生活更轻松，并消除我们作为人类必须做的所有无聊和重复的事情。

但是，虽然这些进步都非常令人印象深刻和有用，但我们必须谨慎使用这些大型语言模型（LLM）。尽管它们具有直觉性，但仍然需要技巧才能有效、可靠和安全地使用它们。

大型语言模型

LLM是一种“深度学习”神经网络，旨在通过根据提供的提示，分析不同反应的概率来理解用户的意图。因此，当用户输入提示时，LLM检查文本并确定最可能的响应。

ChatGPT是LLM的一个突出例子，它可以为各种主题的提示提供答案。然而，尽管ChatGPT的响应看起来很有知识，但它并不具备实际的知识。它的响应只是基于给定提示的最可能的结果。

当人们向ChatGPT、Copilot和其他LLM提供他们想要完成的任务的详细描述时，这些模型可以提供高质量的响应。这可能包括生成文本、图像或计算机代码。

但是，作为人类，我们经常挑战技术所能做的和它最初设计的目的的界限。因此，我们开始使用这些系统来做我们应该自己做的跑腿工作。

为什么过度依赖人工智能会成为一个问题

尽管LLM的回答看起来很聪明，但我们不能盲目地相信它们是准确或可靠的。我们必须仔细评估和验证它们的输出，确保我们最初的提示反映在所提供的答案中。

为了有效地核实和确认LLM的产出，我们需要对主题有很强的了解。如果没有专业知识，我们就无法提供必要的质量保证。

在我们利用LLM课程来弥补自身知识差距的情况下，这一点尤为重要。在这里，知识的缺乏可能会导致我们无法确定输出是否正确。在生成文本和编码时可能出现这种情况。

使用人工智能参加会议和总结讨论，在可靠性方面存在明显的风险。

虽然会议记录以文字记录为基础，但会议记录仍然与LLM的其他文本的生成方式相同。它们仍然基于语言模式和所说内容的概率，因此在采取行动之前需要进行验证。

由于同音异义词，即发音相同但含义不同的单词，它们也面临着翻译问题。由于谈话的背景，人类很善于理解在这种情况下的意思，但人工智能不擅长推断上下文，也不理解细微差别。因此，指望它根据一份可能错误的文字记录来阐述论点，还会带来更多的问题。

如果我们使用人工智能来生成计算机代码，验证就更难了。用测试数据测试计算机代码是验证其功能的唯一可靠方法。虽然这表明代码按预期运行，但并不能保证其行为与现实世界的期望一致。

假设我们使用生成式人工智能为情感分析工具创建代码。目标是分析产品评论，并将评论分为正面、中性或负面。我们可以测试系统的功能，并正确地验证代码功能 —— 从技术编程的角度来看，它是合理的。

然而，想象一下，我们在现实世界中部署了这样的软件，它开始将讽刺的产品评论归类为积极的。情绪分析系统缺乏必要的语境知识，无法理解讽刺不会被用作积极的反馈，而恰恰相反。

在这种微妙的情况下，验证代码的输出与期望的结果相匹配需要专业知识。

非程序员将不会了解用于确保代码正确的软件工程原则，例如计划、方法、测试和文档。编程是一门复杂的学科，软件工程是作为管理软件质量的领域而出现的。

正如我自己的研究所显示的那样，存在一个重大的风险，即非专业人员会忽略或跳过软件设计过程中的关键步骤，从而导致代码的质量未知。

确认和验证

像ChatGPT和Copilot这样的LLM是我们都能从中受益的强大工具。但我们必须小心，不要盲目相信给我们的输出。

我们正处于一场基于这项技术的伟大革命的开端。人工智能有无限的可能性，但它需要被塑造、检查和验证。目前，人类是唯一能做到这一点的。

如果朋友们喜欢，敬请关注“知新了了”！

相关快讯