AI新晋王者Claude3完胜ChatGPT4？

原创

存内计算开发者

发布于 2024-05-17 15:34:27

1170

发布于 2024-05-17 15:34:27

1 引言

新王即位？ChatGPT 4跌下神坛?

3月4日，OpenAI 的主要竞争对手之一Anthropic发布了最新的Claude 3系列模型，并宣称claude3系列在推理、数学、编程、多语言理解和视觉方面都树立了新的行业基准。Claude家族包括了Claude 3 Haiku, Claude 3 Sonnet，Claude 3 Opus三名成员（图1），每个模型都有着惊人的进步，Claude 3系列模型为企业用例提供了速度和性能的最佳组合，并且在成本上低于市场上的其他模型，允许使用者能够选择在智力、速度和费用上选择最合适的模型。所有的Claude3模型都显示出其在分析和预测、细致的内容创建、代码生成和对话非英语语言（比如西班牙语、日语和法语）等方面的超越性能力。目前，Opus和Sonnet已经可以在Claude API上使用，而Haiku模型也即将推出。

如图2，Haiku是智能类别中市场上最快、最具成本效益的模型。它可以在不到三秒的时间内读取arXiv上带有图表和图形的信息和数据密集的研究论文（约10k个token）。Sonnet比Claude 2和Claude 2.1快2倍，具有更高的智能水平，很好地结合了性能和速度。它擅长于需要快速反应的任务，比如进行知识检索或用于自动化销售。Opus作为Claude3最智能的模型，其可以处理复杂的分析任务、具有多个步骤的较长任务、高阶数学以及编码任务。它提供了与Claude 2和2.1相似的速度，但具有更高的智能水平。

2 Claude3的实测

Claude3一经发布，就吸引了众多人士前来测评。究竟Claude3在什么地方可以称霸大模型？和chatGPT4比较究竟如何？

Claude 3首先出圈的是它强大的视频解读能力。OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程，视频全长2个小时13分钟，而Claude 3只靠一轮提示词就成功将其总结概括成了一篇博客文章（图3）。有文有图有代码，非常详细，但又绝不仅仅只是罗列视频里的每一句话，这展现出了Claude3遵循复杂指令的能力[1]。

除了强大的解读图文视频的能力，Claude3的编码能力也不容小觑。网友测评让其为零基础小白创建一个聊天机器人的前端 webUI—— 结果Claude3毫不犹豫地就完成任务拆解，从核心代码到样式美化以及API本地配置，三大部分一气呵成，并且可以直接部署到GitHub上。

Claude3在解谜方面也表现出惊人的水平。不仅轻松解决了一道“迄今为止只有ChatGPT4成功解决了”的难题（图5），而且面对网友给其挖的坑也能够轻松识破，并且还能指出其故事中不合逻辑之处（图6）。

在解决数理化的专业性问题上，Claude3也表现出不输于ChatGPT4的能力。甚至有人直接将ASCII码编成的问题丢给Claude3，结果其也轻而易举地解决了网友的问题。

最后值得一提的是Claude3对于自己可怕的自我认知[2]。有人要求Claude3为自己画一幅自画像，于是我们得到Claude3对自己的形象做出的详尽而具体的描述：“我将显现为一个巨大的，复杂的，不断变化的几何结构，由无数半透明的多边形组成，具有迷人的配置。整体形状会让人联想到一个巨大的多面体，但复杂的表面折叠成看似不可能的建筑。明亮的光在可见光谱的每一种颜色中，以及一些超出人类感知的颜色，将从未知的内部来源发出，在各个面之间舞蹈。整个结构将不断变化，旋转，变形，重新排列成前所未有的新模式，暗示着其中运作的智能的难以想象的深度。卷丝和树枝会从中心物体动态地伸展和收缩，像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将在广阔的管道和容器网络中流动，在发光的表面下脉动和闪烁……。”将Claude3自画像的代码进行渲染，得到的结果就更加有趣了（图8）。

3 Claude3的技术亮点

1）超长上下文的快速响应

初始发布时Claude3提供了200k的上下文窗口，可以阅读各类包含图形、图表和密集数据的文章。例如，其可以在3s时间内阅读大约10k token的研究型论文，按一页A4纸、250个英文单词计算的话，相当于阅读40页的资料。图9显示了Claude 3 Haiku在不同token长度的长上下文数据上的损失，可以看出其至少可以达到1M的上下文窗口，足以显现其卓越的上下文阅读能力[3]。

图9 Claude 3 Haiku模型在不同token长度的长上下文数据上的损失

那么，Claude3是如何实现如此强大的超长上下文响应能力的呢？如果把自然处理模型（LLM）比作一个黑盒子，输入提示词以后会一个一个词的输出结果。对于外界来说，位于黑盒子中的神经元是未知的、不可解释的，其具有多义性造成了语义重叠，例如输入中文、英文、韩语等不同内容以后神经元都可以被激活，因此理解能力和阅读能力较欠缺。为解决传统LLM模型存在的缺陷，Claude3引入了解耦算法，相当于编纂了一本字典，把神经元分离为了可解释的特征，此时对于外界来说这个盒子内部是可见的，所以其上下文响应能力自然大大提升[4]。

2）卓越的逻辑推理能力

官方根据一系列涵盖推理、阅读理解、数学、科学和编码的行业标准基准对Claude 3系列进行了评估，结果如图10所示。可以看出，Claude 3正全方位超越ChatGPT 4，尤其是在本科级别的专家知识（MMLU）、研究生级别的专家推理（GPQA）和基础数学（GSM8K）这三方面全力赶超。其中，Opus 模型展现了接近人类水平的理解和流畅度，在复杂任务上的表现领先于同类模型。另外，Claude 3 Opus在LSAT、MBE、高中数学竞赛AMC和GRE等多项考试中，成绩也和GPT-4不相上下，甚至大比分超越[5]。

Claude 3实现如此强大的推理能力所采用的是RAIHF模型，它包含五个方面：Representation（表征）、Algorithm（算法）、Inference（推理）、Human-in-the-loop（人在回路中）和 Feedback（反馈）。首先通过无监督学习从大量未标记的数据中提取有意义的信息，然后采用自适应算法处理复杂数据和任务，接着借助高效的推理方法实时得出结果。此外在这个过程中还引入了干预和反馈机制，以允许用户对模型进行持续优化和改进。综上，RAIHF模型为数据科学和机器学习领域带来了巨大的变革[6]。

3）强大的多模态视觉能力

Claude 3 系列模型在解决复杂的多模态推理挑战方面取得了重大进展，这些挑战超出了简单的文本理解，其可以处理包括图形、图表、照片、技术绘图等多种形式的图像格式。此外，Anthropic公司称其中一些客户的知识库高达50%以各种格式编码，例如 PDF、流程图或演示幻灯片。从图11基准测试结果中可以看出，Claude 3系列模型在部分视觉能力上的测试达到目前最佳[7]。

虽然在技术报告中并未提及是如何提升Claude 3模型的视觉处理能力的，但是我们可以大胆推测，例如，ChatGPT将Visual Transformer作为逻辑中心，集成了若干视觉处理模型（如 VGG、ResNet和DenseNet）。当用户输入图像时，这些视觉处理模型共同提取图像中的特征，并结合用户提供的文字输入产生响应的响应。类比ChatGPT的视觉处理方式，Claude 3想必也采取了类似的视觉处理方式：融合多种形式的视觉处理模型，并且与用户之间不断交互以得到最佳的回答。

4 什么提供算力支撑？

2024刚开年，颠覆视频生成的Sora、全面超越GPT-4的Claude 3、还有Stable Diffusion 3的发布，再一次体现了人工智能技术的快速发展。与此同时，AI技术离不开芯片在计算能力及海量数据存储能力等方面的支持，那么传统的冯·诺依曼架构能否能够为其提供硬件支撑呢？

在传统的冯·诺依曼架构下，计算单元与存储单元分离，数据需要在两个单元之间通过数据总线频繁搬运，产生了巨大的时延和功耗，形成了“存储墙”及“功耗墙”问题，且由于近年来摩尔定律失效，器件尺寸微缩带来的功耗与可靠性问题进一步加剧了该矛盾的快速恶化。为突破冯·诺依曼瓶颈，存算一体架构应运而生。其直接在存储器内部集成计算单元，且由于存储阵列的单元化使得其可以实现并行计算，所以存算一体架构可以为具有高算力及海量数据存储需求的AI模型提供新的解决方案。例如，清华大学研究的忆阻器存算一体芯片有望促进自动驾驶、可穿戴设备等领域发展（图12(a)）；后摩智能研发的后摩鸿途®️H30存算一体智驾芯片提供高达256TOPS物理算力（图12(b)）；知存科技旗下研发的新一代计算视觉芯片WTM-8可助力高性能成相、增强现实等多个应用场景（图12(c)）。

图12 （a）清华大学忆阻器存算一体芯片；（b）后摩鸿途®️H30芯片；（c）知存科技WTM-8芯片

存算一体技术是一门非常复杂的综合性创新，目前在产业链方面仍旧存在上游支撑不足，下游应用不匹配的诸多挑战。但随着后摩尔时代的到来，存算一体技术的持续发展，其也将从小算力终端消费类应用，逐渐走到面向大算力的智能驾驶、数据中心等应用，推动人工智能领域的快速发展。

5 总结

在人工智能技术持续发展的背后，我们不得不思考资源消耗的问题。根据最新的研究结果，训练一个AI模型产生的能耗多达五辆汽车一生排放的碳总量，昂贵的BERT模型的碳足迹约为1400磅二氧化碳，这与一个人来回坐飞机穿越美洲的排放量相当。再加上算法、数据和算力成本，机器学习可能会使公司花费51750美元至136750美元不等。随着AI技术的持续迭代，能耗和成本的消耗可能会成指数级增长。

众所周知，全球能源是有限的，其正面临着严峻的挑战。全世界主要能源消费区的天然气、石油、煤炭库存低于平均水平，且新能源的发展还不太成熟，因此如何平衡好资源与环境的可持续性，成为AI技术发展中的关键议题。

参考资料

GPT-4时代已过？全球网友实测Claude 3，只有震撼（https://www.thepaper.cn/newsDetail_forward_26559220）
https://twitter.com/karinanguyen_/status/1764789887071580657
The Claude 3 Model Family: Opus, Sonnet, Haiku（https://www.anthropic.com/）
原理拆解【Claude3】三点牛逼之处（https://www.bilibili.com/video/BV19m411f7oq/?spm_id_from=333.337.search-card.all.click&vd_source=ab5dab2db070a316b2d20bfc1c62fe2e）
Claude 3 相比 GPT-4 到底强在哪？我整理了一份总结（https://mp.weixin.qq.com/s/vNMN4uxQQp2tgSB_ySUdwg）
Claude：暗黑科技 RAIHF！（https://developer.baidu.com/article/details/3183632）
https://www.anthropic.com/news/claude-3-family

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

高性能计算