首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

实锤了!斯坦福学生抄袭国内大模型!别忽视这个细节

要闻背景简述

最近,斯坦福大学中一个AI团队发布的Llama3-V模型被指控抄袭了面壁智能开发的开源模型“小钢炮”MiniCPM-Llama3-V 2.5,两者在模型架构与代码上高度相似,仅有部分变量名被更改。

抄袭证据是,面壁智能团队证实,Llama3-V模型不仅能识别出“清华简”中的战国古文字,而且连错误的识别结果都与MiniCPM模型完全一致。这些古文字的数据是面壁智能团队花费数月时间从清华简上逐字扫描并人工标注的,而且从未公开过,从而证实了抄袭的事实。

斯坦福Llama3-V团队的两位作者Siddharth Sharma和Aksh Garg在社交平台上对面壁智能团队就这一学术不端行为进行了正式道歉,并承诺将撤下所有Llama3-V模型。

不过,Siddharth Sharma和Aksh Garg认为,主要过错方是另一个团队成员来自南加利福尼亚大学的Mustafa Aljadery,这个人编写了代码,而他们两个的角色只是推广这个模型。

面壁智能CEO李大海和联合创始人刘知远对抄袭事件表示遗憾,他们希望团队的好工作被更多人关注与认可,但不是以这种方式。同时,呼吁大家共建开放、合作、有信任的社区环境。

6月5日,面壁智能决定将面壁“小钢炮”MiniCPM免费商用。

那么,应该如何看待这次抄袭事件呢?

以下是王煜全要闻评论:

最近有个新闻让我们有了看连续剧的感觉,这就是前一段,斯坦福的一个人工智能团队发布了一个开源的大模型,结果被发现是抄袭了国内公司面壁智能的模型。斯坦福的人工智能团队上来先否认,说你看我发布得更早,但很快就被识破了,而且识破的证据非常强大。

为什么呢?因为这个面壁智能是清华出来的一支团队,他们专门用清华简,就是清华的校友们捐赠的战国竹简,经过清洗,得到了很多宝贵的历史资料,面壁智能在训练大模型的时候就使用了清华简中的文字。

按理说斯坦福的团队应该不可能专门针对清华简做训练,结果他们识别清华简的时候,结果竟然和面壁智能的模型一模一样,连错误都一模一样,所以肯定不是自己训练的,而是直接抄袭了面壁智能。

有了这么强大的证据,斯坦福的这个团队也不能再继续抵赖了,于是采取第二招叫甩锅,说我们其实是三个人,两个是斯坦福的学生,另一个是南加大的,我们两个没参与编程这部分的程序,这是那个南加大的同学编的,而且他失联了。我们听起来似曾相识,基本上甩锅都是这么甩,这不是我干的,是另一个人干的。

国内的面壁智能公司还是表现出了非常好的胸怀,他们的CEO站出来说,希望保护知识产权,同时也要尊重开源社区的开源公约,但是我们并没有更多的诉求,甚至面壁智能很大方地说我们把内容进一步公开给所有人。

那马上就有很多的议论出现了,我看主要是两个。

一个就是说斯坦福竟然也抄袭。那我要稍微说一点,这个还真的不能直接怪到斯坦福头上,为什么呢?大家都爱说这是斯坦福团队,但其实只是斯坦福的两个学生,如果把学生视同于学校,这个无疑是有点夸大了。

比如说Elizabeth Holmes,她大一就辍学创业做了一个公司叫Theranos,后来发现是诈骗。甚至美国专门出了一本书,也出了一个纪录片,叫做《坏血》,专门讲她是如何诈骗的故事。那你不能说斯坦福诈骗,只能说斯坦福的学生也是有坏人的,仅此而已。

那另一个议论很多的,就是说你看以前老说是中国抄美国,尤其这回的大模型,很多人都说中国的大模型是人家的开源套壳,那现在你看美国也套我们的壳了,也在抄我们的东西了。

其实,这种争议是没有意义的,无论谁套谁都不对。但是其实这说明了开源的威力,因为开源本来就是这么一个机制,就是开发者把这个系统开源出来以后,只要你遵守开源的规则,就允许知识产权共享,而且允许你在它的基础上做二次开发,不断去完善。

实际上它利用的一个原则,国外有个说法是crowd accelerated Innovation,叫做群体加速的创新。

就是大家一起对于一个事情来不断地完善,这件事就容易做得越来越好,它的进化的速度就会加快,它就会越来越得到优化,最后能够胜出。所以本来这个群体加速创新就是我抄你,你抄我,只不过你抄的时候要遵守规则而已。

所以这件事不是谁抄谁的问题,而是体现出来中国现在也很擅长利用开源了,这是一个非常可喜的现象。而且中国现在其实在大模型开源里面已经是一个重要力量了。

那第三个几乎没人提到的要点,就是我们要学会一叶知秋,通过一些小新闻、小八卦看到大趋势。

什么大趋势呢?注意这回这个所谓的斯坦福团队,他们的人工智能模型的名字叫什么?叫Llama3-V,最后证明它是基于面壁智能的,但是注意其实面壁智能也是基于Llama的。

什么意思?就是说现在在开源系统里,我们都知道还有一个开源的主力军就是谷歌。但是开源模型里面似乎Facebook更占上风,他们的Llama模型使用得更广泛。

那Llama现在已经占了优势,我认为从长期看谷歌的开源模型Gemma想要追上Llama其实并不容易。

那意味着什么?意味着我们以前说的一件事又得到了一个佐证,就是过去讲IT七巨头都是有光辉的未来的。但是我们认为,就是这七巨头里只有一个公司,很可能从中长期看会下降,就叫谷歌。

原因很简单,一方面就是谷歌赖以成名的搜索,现在正在被AI搜索围剿。另外一方面,谷歌想华丽转身靠什么?肯定要在人工智能领域发力。他们的开源大模型讲了一堆好故事,但是在使用上面不如人家Llama2、Llama3用得广泛。

也就是说,谷歌在传统领域会受到攻击,新的业务又没有办法继续领头羊的局面。所以从这么一个似乎和谷歌无关的小故事里,其实得到的重要结论是进一步强化了我们的判断。

当然,我们得到这个结论也不能只靠这么一个新闻,而是持续地看若干的新闻,慢慢地找到趋势,然后再在每一个新的新闻当中去看是不是符合这个趋势,进而让我们决定要不要对整个发展趋势的判断做调整。

这样慢慢地积累下来,你才会对产业,会对企业形成真正的洞察,从而达到当这个产业还没有发生变化的时候,你会未雨绸缪,你会事先就看到所有的问题,以至于能够做出正确的预测,所以预测才是关键。

但是,预测的核心是找到那些超前变量指标,盯住那些超前变量,看它是怎么变的,从而能够对未来发展做出正确的预测。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O5-MgRe_SIgAmy6khJ9Kn8MQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券