前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >超越 GPT-4 ,新一代 Claude 3 震撼发布

超越 GPT-4 ,新一代 Claude 3 震撼发布

作者头像
莫尔索
发布2024-03-15 14:54:42
730
发布2024-03-15 14:54:42
举报

Anthropic 刚刚发布了新一代的 Claude 3 AI 模型家族,这些模型在多种认知任务上表现出色,提供了不同级别的智能、速度和成本平衡。Claude 3 Opus 是家族中最智能的模型,而 Claude 3 Haiku 则是最快的模型。Anthropic 还强调了模型的安全性和负责任设计,以及对未来模型性能和安全性的持续监控。本文是是对官方发布报告的重点内容翻译,有所增减。

今天,我们宣布推出 Claude 3 模型家族,这一系列模型在广泛的认知任务上设定了新的行业基准。家族包括三个按能力递增的尖端模型:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个后续模型提供越来越强大的性能,允许用户为他们特定的应用选择智能、速度和成本[1]之间的最佳平衡。

Opus 和 Sonnet 现已在 claude.ai 和 Claude API 中可用,Claude API 现已在159 个国家[2]普遍可用。Haiku 将很快推出。

Claude 3 模型家族
智能新标准

Opus,我们最智能的模型,在大多数常见 AI 系统评估基准上超越了同行,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上展现出接近人类的理解和流畅度,引领通用智能的前沿。

所有Claude 3[3]模型在分析和预测、细腻内容创作、代码生成以及使用非英语语言(如西班牙语、日语和法语)进行对话方面的能力都有所增强。

以下是 Claude 3 模型与同行在多个能力[1]基准上的比较:

近乎即时的结果

Claude 3 模型能够支持实时客户聊天、自动补全和数据提取任务,这些任务要求响应必须即时。

Haiku 是市场上同类智能模型中速度最快、成本效益最高的。它可以在不到三秒钟的时间内阅读一篇包含图表和图形的 arXiv 研究论文(约 10k tokens)。我们预计在推出后将进一步改善性能。

对于绝大多数工作负载,Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍,同时具有更高级别的智能。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但智能水平更高。

强大的视觉能力

Claude 3 模型具有与其他领先模型相媲美的复杂视觉能力。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别兴奋地为企业提供这种新的模态,其中一些企业的知识库中有高达 50%的信息以 PDF、流程图或演示幻灯片等各种格式编码。

更少的拒绝

以前的 Claude 模型经常做出不必要的拒绝,这表明缺乏上下文理解。我们在这一领域取得了有意义的进展:Opus、Sonnet 和 Haiku 拒绝回答接近系统安全边界的提示的可能性显著降低。如下所示,Claude 3 模型显示出对请求的更细致理解,识别真正的危害,并更少地拒绝无害的提示。

提高的准确性

各种规模的企业都依赖我们的模型来服务他们的客户,这使得我们的模型输出在大规模上保持高准确性至关重要。为了评估这一点,我们使用了一系列复杂的、事实性的问题,这些问题针对当前模型的已知弱点。我们将响应分为正确答案、错误答案(或幻觉)和不确定性承认,其中模型表示它不知道答案,而不是提供错误的信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上展示了准确性(或正确答案)的两倍提升,同时也展示了错误答案的减少水平。

除了产生更值得信赖的响应,我们很快将在 Claude 3 模型中启用引用功能,以便它们可以指向参考材料中的确切句子来验证它们的答案。

长上下文和近乎完美的记忆

Claude 3 模型家族最初将在推出时提供一个 200K 的上下文窗口。然而,所有三个模型都能够接受超过 100 万 tokens 的输入,我们可能会为需要增强处理能力的选择性客户提供这种功能。

为了有效地处理长上下文提示,模型需要强大的回忆能力。'针海捞针'(NIAH)评估衡量模型从大量数据中准确回忆信息的能力。我们通过使用每个提示的 30 个随机针/问题对之一,并在多样化的众包文档语料库上进行测试,增强了这个基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的回忆,准确率超过 99%,而且在某些情况下,它甚至识别出评估本身的局限性,即“针”句子似乎是被人为插入到原始文本中的。

负责任的设计

我们开发 Claude 3 模型家族,使其既值得信赖又具备能力。我们有几个专门的团队跟踪和减轻广泛的风险,这些风险包括错误信息、CSAM、生物滥用、选举干预和自主复制技能。我们继续开发诸如宪法 AI[4]等方法,以提高我们模型的安全性和透明度,并调整我们的模型以减轻可能由新模态引起的隐私问题。

解决越来越复杂的模型中的偏见是一个持续的努力,我们在这一轮新发布中取得了进展。如模型卡所示,根据问答偏见基准(BBQ)[5],Claude 3 比我们之前的模型表现出更少的偏见。我们致力于推进减少偏见和促进我们模型中更大中立性的技术,确保它们不会偏向任何特定的党派立场。

虽然 Claude 3 模型家族在生物知识、网络相关知识和自主性等关键指标上比之前的模型有所进步,但它仍然处于我们负责任扩展政策[6]的 AI 安全级别 2(ASL-2)。我们的红队评估[7]得出的结论是,这些模型目前对灾难性风险的潜在可能性微不足道。我们将继续仔细监控未来的模型,以评估它们接近 ASL-3 阈值的程度。更多安全细节可在Claude 3 模型[8]中找到。

更易使用

Claude 3 模型更擅长遵循复杂、多步骤的指令。它们特别擅长遵循品牌声音和响应指南,并开发用户可以信赖的客户体验。此外,Claude 3 模型更擅长生成流行的结构化输出格式,如 JSON——这使得指导 Claude 用于自然语言分类和情感分析等用例变得更加简单。

模型细节

Claude 3 Opus 是我们最智能的模型,在高度复杂的任务上具有市场上最佳的表现。它能够以惊人的流畅度和类人理解力处理开放式提示和未见场景。Opus 向我们展示了生成性 AI 的可能性极限。Claude 3 Sonnet 在智能和速度之间取得了理想的平衡——特别是对于企业工作负载。与同类模型相比,它以较低的成本提供强大的性能,并为大规模 AI 部署设计了高耐久性。Claude 3 Haiku 是我们最快、最紧凑的模型,用于近乎即时的响应。它以无与伦比的速度回答简单查询和请求。用户将能够构建无缝的 AI 体验,模仿人类互动。

模型可用性

Opus 和 Sonnet 现已在我们的 API 中可用,该 API 现已普遍可用,使开发者能够立即注册并开始使用这些模型。Haiku 将很快推出。Sonnet 正在为 claude.ai 上的免费体验提供动力,而 Opus 则提供给 Claude Pro 订阅者。

Sonnet 今天也通过 Amazon Bedrock 可用,并在 Google Cloud 的 Vertex AI Model Garden 中进行私人预览——Opus 和 Haiku 也将很快在两者上推出。

更智能、更快、更安全

我们不认为模型智能接近其极限,我们计划在未来几个月内频繁更新 Claude 3 模型家族。我们也很高兴推出一系列功能,以增强我们模型的能力,特别是针对企业用例和大规模部署。这些新功能将包括工具使用(亦称函数调用)、交互式编码(亦称 REPL)以及更高级的代理能力。

随着我们推动 AI 能力的边界,我们也致力于确保我们的安全防护措施与这些性能飞跃保持同步。我们的假设是,处于 AI 开发的前沿是引导其朝着积极社会结果的最有效方式。

我们很兴奋地看到您用 Claude 3 创造什么,并希望您能给我们反馈,使 Claude 成为一个更有用的帮助者和创意伙伴。要开始使用 Claude 构建,请访问anthropic.com/claude[9]

参考资料

[1]

成本: https://www.anthropic.com/api#pricing

[2]

159 个国家: https://www.anthropic.com/supported-countries

[3]

Claude 3: https://www.anthropic.com/claude-3-model-card

[4]

宪法 AI: https://www.anthropic.com/news/constitutional-ai-harmlessness-from-ai-feedback

[5]

问答偏见基准(BBQ): https://aclanthology.org/2022.findings-acl.165/

[6]

负责任扩展政策: https://www.anthropic.com/news/anthropics-responsible-scaling-policy

[7]

红队评估: https://www.anthropic.com/news/red-teaming-language-models-to-reduce-harms-methods-scaling-behaviors-and-lessons-learned

[8]

Claude 3 模型: https://www.anthropic.com/claude-3-model-card

[9]

anthropic.com/claude: https://www.anthropic.com/claude

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 莫尔索随笔 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Claude 3 模型家族
  • 智能新标准
  • 近乎即时的结果
  • 强大的视觉能力
  • 更少的拒绝
  • 提高的准确性
  • 长上下文和近乎完美的记忆
  • 负责任的设计
  • 更易使用
  • 模型细节
  • 模型可用性
  • 更智能、更快、更安全
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档