苹果AI手机发布后，端侧AI大模型前景如何？

原创

算法一只狗

发布于 2024-09-26 19:43:49

1070

发布于 2024-09-26 19:43:49

文章被收录于专栏：算法一只狗

9月10日凌晨1点，被称为“科技春晚”的苹果发布会拉开序幕。其中苹果介绍了其第一台AI手机：iPhone 16。这是第一台搭载了AI大模型的手机，能够依据用户的输入进行但不限于AI消图、总结文本、邮件回复等等。

这里面主要的功能，基本都是是围绕着Apple Intelligence进行展开

作为第一款搭载了AI大模型的手机，其部署的端侧大模型有以下几个优点：

保护隐私：设备端处理数据，不涉及云端，确保用户隐私安全。
端云协同：智能分配设备与云端计算任务，优化资源，提升速度与效率。
语言图像解析：新语言处理技术，支持Writing Tools辅助写作与文本处理。
与苹果生态融合：AI模型深度集成于苹果操作系统，实现流畅便捷体验。

其发布会上最惊艳的功能就是“视觉智能”，比如当你看到一家餐厅，你可以通过相机进行拍摄，然后通过AI搜索其具体的评价，菜单等等。

1.国内外纷纷推出自己的端侧大模型

先来看看苹果推出的结合端侧大模型，网上说是与OpenAI合作，部署的是GPT-4o模型。结合之前OpenAI发布的GPT-4o mini来看，很有可能就是部署了这个模型。

GPT-4o mini的特征很符合部署到手机端上，一个是因为他足够的小，这样会加快其推理速度；第二个是效果并不比GPT-4o模型要差。

模型更加便宜，相应速度更快：上下文长度比GPT-3.5要多，原来的GPT3.5只支持16k输入，但新的GPT-4o mini则支持128K上下文

同时价格比GPT-3.5 Turbo便宜超过60%，定价为每100万个输入token才15美分和每100万个输出token则为60美分（大约相当于一本标准书的2500页）。

从相应速度来看，GPT-4o mini明显比OpenAI其他模型推理速度要快得多。应该是因为其参数量不大，所以速度提升明显。

模型效果更强：GPT-4o mini在文本智力方面表现优于GPT-3.5 Turbo，在MMLU上得分82%，而GPT-3.5 Turbo得分为69.8%，并且在多模态推理方面也表现更佳。

因此苹果选择与OpenAI合作也无可厚非。发布会中最为惊艳的是其展示的视觉智能搜索。苹果举了一个例子：

当你看到一个餐厅时，只需要通过拍下照片，就可以利用Apple Intelligence参看当前这个餐厅的所有信息，包括菜单或者评分等等。

但问题在于，苹果宣布AI接入中文要等到下一年，而且并不一定国内的用户能够使用。到时候可能接入的是国内百度的文心一言，体验不了最强模型GPT-4的效果。

而回看国内手机厂商品牌，很多手机厂商也开始发布自家搭载了端侧大模型的AI手机。比如最近，荣耀也推出了自己的搭建了端侧大模型的手机。

荣耀Magic 7作为国内首款安卓AI智能体手机，相比于苹果有不一样的地方。

比如可以利用AI帮助你进行“AI人脸反诈骗”检测，可以有效应对AI诈骗。

当然，还有最常用的搜索图片等功能（被称为“一语查图”）。利用模糊的语言在大量的相册中搜索你要的图片。比如，你可以说“盛开的荷花”“去年春节穿红色衣服的照片”等等，便能即刻从海量图片中找到需要的照片。

除了这两家之外，各大厂商也陆续发布自己的端侧大模型，每个厂商最大的参数量也就只有7B左右，而像小米、苹果这种发布的自家端侧大模型，仅有3B以下参数量。这说明7B以下大模型其实是很好的能够衡量推理速度和其效果的，在保持效果不差的情况下，推理速度也不至于过慢。

	端侧大模型	模型参数
苹果	MM1/OpenELM	450M/3B
华为	盘古	\|
三星	Gemini（非自研）	1.8B/3.25B
荣耀	魔法	7B
OPPO	AndesGPT	7B
vivo	BlueLM	7B
小米	MiLM	1.3B/6.4B

手机端侧模型最实际的价值应该是把10B模型塞入到手机中，随着手机性能的溢出，这个未来应该是不远。

2.端侧AI模型现状

端侧AI模型是指将AI大模型运行于用户的终端设备上，如手机或计算机，而不是依赖云端服务器。这种技术有几个关键特点和挑战：

参数规模不能过大，且效果要有保证
推理速度需要用户达到感知不到的效果
如何挖掘端侧大模型的具体应用场景

2.1 参数规模不能过大，且效果要有保证

目前在市面上已经有多个厂商发布自己的端侧模型，但是端侧模型需要的一个突出点在于参数量不能过大，不然要运行在本地还是有一定的难度。在当前INT4/INT8的量化上，需要保证模型还能够有一定的推理能力。

从近期的一些文章来看，目前的端侧模型效果惊人，已经能够复刻ChatGPT的效果。比如面壁智能近期发布的端侧模型MiniCPM 3.0。它仅仅是一个 4B 参数量的语言模型，相比 MiniCPM1.0/2.0，功能更加全面，综合能力大幅提升，多数评测集上的效果比肩甚至超越众多 7B-9B 模型。

其具有三个突出的优点：

超强的推理能力：数学能力方面，MathBench 上的效果超越 GPT-3.5-Turbo 以及多个 7B-9B 模型。在非常具有挑战性的 LiveCodeBench 上，效果超越 Llama3.1-8B-Instruct。
出色的中英文指令遵循能力：英文指令遵循 IFEval、中文指令遵循 FollowBench-zh 效果超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。
长文本能力：原生支持 32k 上下文长度，32k 长度内大海捞针全绿。提出 LLM x MapReduce ，理论可处理的上下文长度达到 +∞。

因此可以说，目前的端侧大模型本质上效果已经有了较大的提升。虽然这样的模型模型已经能做到相对不错的内存占用——MiniCPM 3.0 的模型量化后仅需 2GB 内存占用，但是仍然存在适配的挑战：

当App用户量超过100万时，手机配置将极为多样，受限于不同手机的内存读写、能耗等方面，部署端侧模型在现阶段极具挑战性。

2.2 推理速度需要用户达到感知不到的效果

为了实现在手机上达到用户感知不到的推理速度，端侧AI大模型需要具备以下几个关键特性：

低延迟：模型的响应时间必须非常短，以确保用户无法感知到延迟。

面壁智能发布的MiniCPM 3.0模型，在端侧上进行量化部署，可以达到18-20 tokens/s；

商汤科技的SenseChat-Lite模型在中端平台上可以达到18.3字每秒，旗舰平台上能达到78.3字每秒，响应时间低于0.4秒。

这些模型展示了在保持较高性能的同时，大幅减少模型参数量和计算复杂度的可能性。一般来说，每秒20tokens以上应该具有较好的用户体验。

优化技术：采用先进的优化技术，如量化、模型压缩和硬件加速等，以减少模型参数量和计算复杂度。

这里面优化技术最重要的就是量化技术。

上面论文提出，生成式AI的Transformer大语言模型通过量化至8位（INT8）或4位（INT4）权重，可大幅提升效率。INT4权重量化在训练后量化（PTQ）中同样可行且表现优异，提升效率已超浮点模型。

利用量化感知训练（QAT），许多生成式AI模型可量化至INT4。INT4模型在不损失准确性和性能的情况下，功耗更低，性能提升90%，能效提升60%。

硬件加速方面，可以采取异构计算架构，包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。

以第三代骁龙8移动平台为例，Hexagon NPU在性能表现上，比前代产品快98%，同时功耗降低了40%。

通过上述优化技术，端侧AI大模型能够在保持较高性能的同时，大幅减少模型参数量和计算复杂度，从而实现在手机等移动设备上的高效运行。这不仅有助于提升用户体验，还能确保设备的续航能力。

3.大模型的下半场：AI Agent能力

自从2022年以来，ChatGPT的横空出世，大模型给人们带来了太多的震撼和惊喜。但是从目前来看，大部分的大模型效果已经区分不开，实际使用体验来看也没有明显的差异性。

很明显，如果继续卷大模型参数和能力，是有很大的瓶颈的。那么大模型的AI Agent 能力可能是下一个必争之地。这是因为能够发挥大模型的地方，目前最好的平台就是手机，而手机则需要依赖于大模型的AI Agent能力，来帮助用户与环境交互。这种能力能够结合功能调用、工具使用和计划能力，能更精确地理解需求并解决复杂任务。

AI大模型需要重新定义“智能手机”，“智能”不仅是“我能用手机做什么”，还应该包括“手机能帮我做什么”。而目前，大模型的能力都在逐步完善AI Agent能力。

比如之前阿里发布的Qwen2-VL模型，使用了多模态的能力去理解用户输入的多维度信息。首先来看看简单的Demo，让Qwen2-VL模型根据输入的图像，调用插件回到对应的问题。