前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >苹果AI手机发布后,端侧AI大模型前景如何?

苹果AI手机发布后,端侧AI大模型前景如何?

原创
作者头像
算法一只狗
发布2024-09-26 19:43:49
1070
发布2024-09-26 19:43:49
举报
文章被收录于专栏:算法一只狗

9月10日凌晨1点,被称为“科技春晚”的苹果发布会拉开序幕。其中苹果介绍了其第一台AI手机:iPhone 16。这是第一台搭载了AI大模型的手机,能够依据用户的输入进行但不限于AI消图、总结文本、邮件回复等等。

这里面主要的功能,基本都是是围绕着Apple Intelligence进行展开

作为第一款搭载了AI大模型的手机,其部署的端侧大模型有以下几个优点:

  1. 保护隐私:设备端处理数据,不涉及云端,确保用户隐私安全。
  2. 端云协同:智能分配设备与云端计算任务,优化资源,提升速度与效率。
  3. 语言图像解析:新语言处理技术,支持Writing Tools辅助写作与文本处理。
  4. 与苹果生态融合:AI模型深度集成于苹果操作系统,实现流畅便捷体验。

其发布会上最惊艳的功能就是“视觉智能”,比如当你看到一家餐厅,你可以通过相机进行拍摄,然后通过AI搜索其具体的评价,菜单等等。

1.国内外纷纷推出自己的端侧大模型

先来看看苹果推出的结合端侧大模型,网上说是与OpenAI合作,部署的是GPT-4o模型。结合之前OpenAI发布的GPT-4o mini来看,很有可能就是部署了这个模型。

GPT-4o mini的特征很符合部署到手机端上,一个是因为他足够的小,这样会加快其推理速度;第二个是效果并不比GPT-4o模型要差。

  • 模型更加便宜,相应速度更快:上下文长度比GPT-3.5要多,原来的GPT3.5只支持16k输入,但新的GPT-4o mini则支持128K上下文

同时价格比GPT-3.5 Turbo便宜超过60%,定价为每100万个输入token才15美分和每100万个输出token则为60美分(大约相当于一本标准书的2500页)。

从相应速度来看,GPT-4o mini明显比OpenAI其他模型推理速度要快得多。应该是因为其参数量不大,所以速度提升明显。

  • 模型效果更强:GPT-4o mini在文本智力方面表现优于GPT-3.5 Turbo,在MMLU上得分82%,而GPT-3.5 Turbo得分为69.8%,并且在多模态推理方面也表现更佳。

因此苹果选择与OpenAI合作也无可厚非。发布会中最为惊艳的是其展示的视觉智能搜索。苹果举了一个例子:

当你看到一个餐厅时,只需要通过拍下照片,就可以利用Apple Intelligence参看当前这个餐厅的所有信息,包括菜单或者评分等等。

但问题在于,苹果宣布AI接入中文要等到下一年,而且并不一定国内的用户能够使用。到时候可能接入的是国内百度的文心一言,体验不了最强模型GPT-4的效果。

而回看国内手机厂商品牌,很多手机厂商也开始发布自家搭载了端侧大模型的AI手机。比如最近,荣耀也推出了自己的搭建了端侧大模型的手机。

荣耀Magic 7作为国内首款安卓AI智能体手机,相比于苹果有不一样的地方。

比如可以利用AI帮助你进行“AI人脸反诈骗”检测,可以有效应对AI诈骗。

当然,还有最常用的搜索图片等功能(被称为“一语查图”)。利用模糊的语言在大量的相册中搜索你要的图片。比如,你可以说“盛开的荷花”“去年春节穿红色衣服的照片”等等,便能即刻从海量图片中找到需要的照片。

除了这两家之外,各大厂商也陆续发布自己的端侧大模型,每个厂商最大的参数量也就只有7B左右,而像小米、苹果这种发布的自家端侧大模型,仅有3B以下参数量。这说明7B以下大模型其实是很好的能够衡量推理速度和其效果的,在保持效果不差的情况下,推理速度也不至于过慢。

端侧大模型

模型参数

苹果

MM1/OpenELM

450M/3B

华为

盘古

|

三星

Gemini(非自研)

1.8B/3.25B

荣耀

魔法

7B

OPPO

AndesGPT

7B

vivo

BlueLM

7B

小米

MiLM

1.3B/6.4B

手机端侧模型最实际的价值应该是把10B模型塞入到手机中,随着手机性能的溢出,这个未来应该是不远。

2.端侧AI模型现状

端侧AI模型是指将AI大模型运行于用户的终端设备上,如手机或计算机,而不是依赖云端服务器。这种技术有几个关键特点和挑战:

  • 参数规模不能过大,且效果要有保证
  • 推理速度需要用户达到感知不到的效果
  • 如何挖掘端侧大模型的具体应用场景

2.1 参数规模不能过大,且效果要有保证

目前在市面上已经有多个厂商发布自己的端侧模型,但是端侧模型需要的一个突出点在于参数量不能过大,不然要运行在本地还是有一定的难度。在当前INT4/INT8的量化上,需要保证模型还能够有一定的推理能力。

从近期的一些文章来看,目前的端侧模型效果惊人,已经能够复刻ChatGPT的效果。比如面壁智能近期发布的端侧模型MiniCPM 3.0。它仅仅是一个 4B 参数量的语言模型,相比 MiniCPM1.0/2.0,功能更加全面,综合能力大幅提升,多数评测集上的效果比肩甚至超越众多 7B-9B 模型。

其具有三个突出的优点:

  • 超强的推理能力:数学能力方面,MathBench 上的效果超越 GPT-3.5-Turbo 以及多个 7B-9B 模型。在非常具有挑战性的 LiveCodeBench 上,效果超越 Llama3.1-8B-Instruct。
  • 出色的中英文指令遵循能力:英文指令遵循 IFEval、中文指令遵循 FollowBench-zh 效果超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。
  • 长文本能力:原生支持 32k 上下文长度,32k 长度内大海捞针全绿。提出 LLM x MapReduce ,理论可处理的上下文长度达到 +∞。

因此可以说,目前的端侧大模型本质上效果已经有了较大的提升。虽然这样的模型模型已经能做到相对不错的内存占用——MiniCPM 3.0 的模型量化后仅需 2GB 内存占用,但是仍然存在适配的挑战:

当App用户量超过100万时,手机配置将极为多样,受限于不同手机的内存读写、能耗等方面,部署端侧模型在现阶段极具挑战性。

2.2 推理速度需要用户达到感知不到的效果

为了实现在手机上达到用户感知不到的推理速度,端侧AI大模型需要具备以下几个关键特性:

  • 低延迟:模型的响应时间必须非常短,以确保用户无法感知到延迟。

面壁智能发布的MiniCPM 3.0模型,在端侧上进行量化部署,可以达到18-20 tokens/s;

商汤科技的SenseChat-Lite模型在中端平台上可以达到18.3字每秒,旗舰平台上能达到78.3字每秒,响应时间低于0.4秒。

这些模型展示了在保持较高性能的同时,大幅减少模型参数量和计算复杂度的可能性。一般来说,每秒20tokens以上应该具有较好的用户体验。

  • 优化技术:采用先进的优化技术,如量化、模型压缩和硬件加速等,以减少模型参数量和计算复杂度。

这里面优化技术最重要的就是量化技术。

上面论文提出,生成式AI的Transformer大语言模型通过量化至8位(INT8)或4位(INT4)权重,可大幅提升效率。INT4权重量化在训练后量化(PTQ)中同样可行且表现优异,提升效率已超浮点模型。

利用量化感知训练(QAT),许多生成式AI模型可量化至INT4。INT4模型在不损失准确性和性能的情况下,功耗更低,性能提升90%,能效提升60%。

硬件加速方面,可以采取异构计算架构,包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。

以第三代骁龙8移动平台为例,Hexagon NPU在性能表现上,比前代产品快98%,同时功耗降低了40%。

通过上述优化技术,端侧AI大模型能够在保持较高性能的同时,大幅减少模型参数量和计算复杂度,从而实现在手机等移动设备上的高效运行。这不仅有助于提升用户体验,还能确保设备的续航能力。

3.大模型的下半场:AI Agent能力

自从2022年以来,ChatGPT的横空出世,大模型给人们带来了太多的震撼和惊喜。但是从目前来看,大部分的大模型效果已经区分不开,实际使用体验来看也没有明显的差异性。

很明显,如果继续卷大模型参数和能力,是有很大的瓶颈的。那么大模型的AI Agent 能力可能是下一个必争之地。这是因为能够发挥大模型的地方,目前最好的平台就是手机,而手机则需要依赖于大模型的AI Agent能力,来帮助用户与环境交互。这种能力能够结合功能调用、工具使用和计划能力,能更精确地理解需求并解决复杂任务。

AI大模型需要重新定义“智能手机”,“智能”不仅是“我能用手机做什么”,还应该包括“手机能帮我做什么”。而目前,大模型的能力都在逐步完善AI Agent能力。

比如之前阿里发布的Qwen2-VL模型,使用了多模态的能力去理解用户输入的多维度信息。首先来看看简单的Demo,让Qwen2-VL模型根据输入的图像,调用插件回到对应的问题。

这个挑战主要是测试Qwen2-VL模型对图像中文字的理解能力,在理解之后根据指令查询信息。用户上传了一张航班信息图片,当用户询问到底时间和目的地天气时,就需要大模型去搜索天气信息。从视频上看,Qwen2-VL对于简单的调用工具还是做得不错。

接下来就是一个更加复杂的场景。左边是AI操作的界面,右边是AI的每个状态步骤。

这时候需要大模型去查询一个San Diego的餐厅。可以看到AI操作谷歌搜索,然后寻找当前用户附近的餐厅。这样就可以找到心仪的餐厅了。

像上面这些例子,都是大模型AI Agent能力的体现,那么可以想象,借助大模型,使用手机将不再是一个需要「学习」的过程,用户只需用自然语言表达自己的需求即可。此外,大模型AI Agent还能帮助我们管理日程、提醒重要事项,甚至在我们忙碌时处理一些简单任务,如购物、订餐等。

总之,借助大模型AI Agent,手机将变得更加人性化,成为我们生活中不可或缺的伙伴。我们可以通过简单的语言与手机互动,让它为我们提供全方位的服务,从而让我们的生活变得更加便捷和高效。

4.总结

从目前的端侧AI模型现状来看,国内外的很多厂商都聚焦于如何把大模型配置到手机上,并使得手机能够更加的智能。从苹果发布会来看,这只是AI在手机上的一个初步体现。

当然如果仅靠端侧模型去理解用户意图,本质上还会有一定的偏差,需要结合云端大模型共同处理和写作,才能实现更加强大的通用Agent能力。

参考:

1)https://www.zhihu.com/question/666857800/answer/3623127609

2)https://github.com/OpenBMB/MiniCPM?tab=readme-ov-file

3)https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247746721&idx=1&sn=2f9781381d73c5371b200bb6de3ad05c&chksm=e9faddbb7df4b0af62fec6a45efbe4fbf235e757f3548eaf926ca7f24b61fb41f501a82756d8#rd

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.国内外纷纷推出自己的端侧大模型
  • 2.端侧AI模型现状
    • 2.1 参数规模不能过大,且效果要有保证
      • 2.2 推理速度需要用户达到感知不到的效果
      • 3.大模型的下半场:AI Agent能力
      • 4.总结
      相关产品与服务
      GPU 云服务器
      GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档