首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >盘古大模型被曝“套壳续训”,真相到底是怎么样?

盘古大模型被曝“套壳续训”,真相到底是怎么样?

原创
作者头像
算法一只狗
发布2025-07-09 21:00:01
发布2025-07-09 21:00:01
3830
举报
文章被收录于专栏:算法一只狗算法一只狗

最近这件事闹得沸沸扬扬的,从高赞答主 @平凡 那里可以看到:在Pangu Ultra的测试结果中有100%正确率的这种测试集结果是非常离谱的。

具体的讨论贴可以看github这里:https://github.com/HW-whistleblower/True-Story-of-Pangu/issues/317

其实如果有微调过大模型的人都知道,想要在一个测试集上达到100%的分数基本上是不可能的。

因为本身大模型就会存在幻觉现象,而且ARCE这个测试集有7000多条的数据,大模型基本上不可能每一条都能够答对,只能是无限趋近于100%的准确率。

那盘古大模型为什么能取得这么高的分数呢?从Github上爆料上来看,在测试过程中只取了部分的测试集,也就是从ARCE这个数据集上抽取了100条,然后进行测试。把子集的结果当成了整个测试集的结果。

但这个小作文还是有一些疑点。比如文章中写到:

当时使用的tokenizer编码效率极低,每个单个的符号,数字,空格,乃至汉字都会占用一个token

tokenizer应该是很成熟和通用的一个技术了,而作者团队在更换小模型之前还是用绝对编码,这个不符合现有大模型技术的逻辑。毕竟位置编码现在大部分都用了Rope,不应该还会使用比较落后的绝对编码进行训练。

还有这一段话

切换绝对位置编码到rope,去掉bias,切换为rmsnorm

直到 2024 年中才将 绝对位置编码 → RoPEBias → 无偏卷积LayerNorm → RMSNorm 等改动列为“重大突破”,但是实则业界 2022 年起已是默认配置。作为大模型训练团队不应该连这么热门的技术都不知道的

当然最后他们两个团队的赛马问题,加速了数据、算力、人力的内耗:

添加图片注释,不超过 140 字(可选)


事件回顾一下:在6月30日华为发布了新的盘古大模型,但是随后HonestAGI团队发布一项名为“模型指纹”,指责盘古大模型抄袭。

那么盘古大模型到底是hw自研的还是基于Qwen、DeepSeek继续训练而来的呢?这个其实真的不好说,从匿名团队 HonestAGI 在 GitHub 发布“模型指纹”报告,称盘古与阿里 Qwen-2.5 14B 权重极度相似,涉嫌“套壳续训”。

它这里面用到的相似度计算核心思路在于:用每层 Q/K/V/O 投影矩阵 σ 值组成 1 D 特征向量,计算皮尔逊相关系数。方法实现简单、易复现。

从它论文中贴图来看,其QKV的具体参数和qwen的相似度都很吻合,而且盘古大模型的参数层数基本和Qwen2.5相似,都是40+层。所以作者认为盘古基本就是Qwen2.5的套壳产品。

这次的这个小作文可能从另一个角度上验证了盘古大模型确实存在“套壳续训”的嫌疑。

因为如果你从实际工程角度来看:

第一,一个团队在没有完整数据清洗流程、算力投入和工程积累的情况下,直接训练出一个性能媲美国际顶尖模型的结果,本身就是极低概率事件;

第二,如文章中提到,他们在2024年中才开始将RoPE、RMSNorm这些2022年就已成为业界标准配置的技术引入到模型中,这说明团队在大模型领域的技术积累确实存在空白,甚至连Transformer主干架构的更新都没有跟上。

更重要的是,如果真的有完全自研的大模型,最关键的体现应该是“架构创新”和“训练策略创新”,而不是在模型发布后还被质疑基础模块配置落后。这从侧面也解释了为什么会出现“在测试集上100%正确率”这种完全不符合常理的结果——要么就是测试集规模被有意缩小,要么就是模型和测试集存在高度重叠,换句话说,就是测试集泄露。

当然,目前盘古团队对于这次指控并没有公开、详细的技术澄清,仅仅一句“我们是自研”无法说服专业人士。随着模型指纹检测方法的成熟,未来如果继续有团队尝试“借壳”并声称完全自研,那么类似的技术质疑只会越来越多,也会推动行业的透明化与规范化。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档