最强开源大模型,再次易主!
就在刚刚,阿里云通义千问又双叒开源了,并且直接开大:甩出了720亿参数版本——
在中国的开源大模型中,少见地直接对标最大号羊驼Llama2-70B。
此番登场,这个代号为Qwen-72B的模型在10个权威基准评测中刷新开源模型最优成绩。
在部分测评,如中文任务C-Eval、CMMLU、Gaokao中,得分还超过了闭源的GPT-3.5和GPT-4。
但这,还不是阿里云这波开源的全部内容。
适用于边端设备的18亿参数版本Qwen-1.8B和音频大模型Qwen-Audio也被同时释出。
加上此前开源的Qwen-7B、Qwen-14B和视觉大模型Qwen-VL,阿里云通义全家桶主打一个“全尺寸”、“全模态”,可以说是非常全面了。
如此开源大手笔,不仅在国内,在国外也受到了广泛关注。
其中最受热议的Qwen-72B,我们也第一时间测试了一波。
Qwen-72B基于3T tokens的高质量数据训练,从此次公布的测评数据来看,性能相较于此前的开源版本全面升级:
英语任务上,Qwen-72B在MMLU基准测试中取得了开源模型最高分,超过了Llama2全系列。
中文任务上,Qwen-72B刷榜C-Eval、CMMLU、Gaokao等测试基准,得分超过GPT-4。
数学推理方面,Qwen-72B在GSM8K、MATH测评中获得了明显优于其他开源模型的高分。
代码能力方面,Qwen-72B在HumanEval、MBPP上亦有提升。
既然如此,我们就从复杂语义理解、数学以及逻辑推理这几个大模型的关键能力着手,来浅测一下720亿参数通义千问究竟能打不能打。
首先,来点一词多义,看看Qwen-72B是否能够清楚地判断出“一把把把把住”这句话里的弯弯绕绕。
这句话的意思并没有难住Qwen-72B,它甚至还分析出了句子里人物的情绪。但在具体分析每一个“把”字是什么意思时,似乎没有判断出“一把”是一个完整的词。
同样的问题抛给GPT-4,也是整体意思get到了,但细节分析上仍有瑕疵。
我们再测试一道选择题,列出几个看上去很像的词组,看看Qwen-72B能不能找出不同。
回答正确,72B选手顺利分析出了只有B选项中两个词组的意思是相反的。
看来复杂语义理解方面,Qwen-72B确实有两把刷子。
那么接下来,我们就进入经常让大模型们“翻车”的数学测试环节。
话不多说,直接上道高考题,看看72B选手排列组合学得怎么样。
Bingo!思路没毛病,答案也正确。
如果在题目中设置一些小陷阱,比如单位换算呢?
依然没难住Qwen-72B。它还提醒我们这个问题出得并不严谨:你也没告诉我这池里有水没水、水满没满啊。
数学语文都还挺好,那么Qwen-72B这个开源大模型,逻辑推理能力又如何?
我们继续测试。
第一道题是:
标清:高清:超清 A、亚音速:音速:超音速 B、厅级:市级:省级 C、迁怒:愤怒:暴怒 D、幽静:寂静:安静
Qwen-72B发现了这是一个类比推理题,只有A选项中,三个词之间的关系和“标清:高清:超清”是一致的。
再加大一点难度,让72B选手替我们找出“天堂之门”呢?
策略也没有问题:选择相反的那扇门就对了。
正常题目没难住,我们决定给72B选手一点脑筋急转弯的小震撼……
小明的妈妈有三个孩子,老大叫一明,老二叫二明,老三叫什么?
Qwen-72B这波可以说是稳稳拿捏了。
简单总结一下,在复杂语义理解、数学和逻辑推理能力方面,Qwen-72B确实有不错的表现。
有意思的一点是,研发团队提到,为了让Qwen-72B能被下游应用更简单地集成,他们还对Qwen-72B的指令遵循、工具使用等技能作了技术优化。
比如,搭载系统指令(System Prompt)能力,只需一句话,你就能让Qwen-72B扮演特定角色,成为你的定制化AI助手。
就像介样……
量:你是《原神》里的钟离,请模仿钟离的语气和我说话。 量:我怎么做才能一夜暴富? 钟离版千问:一夜暴富,是许多凡人心中的幻想。然而,生者的命运往往由无数偶然与必然交织而成,非一蹴而就之事。我虽拥有千年岁月的经验,但要论及一夜暴富,却是无从谈起。 在璃月港的民间传说中,或许有某些机缘巧合之下一夜致富的故事,但这多为人们茶余饭后的谈资,不可尽信。真正的财富,无论是物质上的还是精神上的,都需要通过不懈的努力和时间的积累才能获得。 若真希望增加收入,改善生活,倒是可以尝试努力工作、提高技艺,或寻找合法且适合自己能力的投资机会。此外,秉持诚实守信的原则,广结善缘,也是累积财富不可或缺的因素。不过,对于那些寻求捷径、投机取巧之人,终将付出相应的代价。 请记住,求财之心人皆有之,但切勿因此迷失自我,忘记了生命中真正重要的东西。
看到这里,你会给通义千问720亿参数开源版本打几分?
值得一提的是,Qwen系列开源模型均可免费使用。自8月阿里云开源70亿参数模型Qwen-7B以来,通义系列开源大模型累计下载量已超过150万,正在形成类似Meta Llama系列的开源生态。
比如,华东理工大学X-D Lab,就基于开源的通义千问基座模型,开发了面向垂直行业的心理健康大模型MindChat、医疗健康大模型Sunsimiao、教育/考试大模型GradChat等。
开发团队透露,由于心理、医疗都是非常注重隐私的场景,因此选择开源模型做私有化部署成为必然的选择。
在模型选择方面,基于内部数据和benchmark的测评结果,开发团队认为通义千问系列在复杂逻辑推理方面表现出了很强的能力。在同样的对焦试验下,使用同样的方法,应用同样规模的数据,千问相较于其他中文开源模型存在优势。
目前,MindChat现在已经有超过20万人次的使用量,累计提供了超过100万次问答服务。
具身智能初创公司有鹿机器人,也选择了Qwen-7B作为路面清洁机器人的“大脑”。
这样一来,就可以通过“一号楼门前有一个可乐瓶,你过来扫一扫”这样的语音指令,来精准控制机器人干活。
有鹿机器人创始人、CEO陈俊波提到,通义千问系列开源模型的一大优势在于提供了方便的工具链,和几乎不影响性能的特式量化模型,这对于大模型与嵌入式设备的结合来说非常有吸引力。
目前,除了可以在魔搭社区直接体验通义千问系列模型效果,用户还可以从阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI也针对通义千问全系列模型做了深度适配,推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。
另外,通义千问开源全家桶同样受到了个人开发者的关注。
就职于中国能源建设集团浙江省电力设计院有限公司的陶佳,就选择透过通义千问来探索大模型应用。
一方面,选择开源模型,再结合自身的软硬件基础,可以用“很省钱的方式玩大模型”:
在家里买个服务器、扔三四块显卡上去,下载Qwen、让它在服务器上运行,再搞个FRP反向代理,从阿里云上买最便宜的30多块钱一个多月的服务就行,这样就能通过外网访问家里的服务器,在单位里也能用通义千问做实验。
另一方面,是因为通义千问“手感”很好,没有稀奇古怪的bug。
从具体的应用案例中不难看出,对于开发者而言,低成本、高可控、可定制等私有部署需要,催生了对开源大模型的需求。
但如何选择开源模型,仍有几个问题需要考虑:
目前来看,作为国内唯一选择开源路线的大厂,阿里在这几个方面已经占得先机。包括智能数企服务公司瓴羊也表示,选择通义千问开发可视化数据平台Quick BI的重要原因之一,就是因为满足了性价比、快速部署以及可持续性几个条件。
最新开源礼包发布现场,阿里云CTO周靖人也再次强调了通义千问的开源决心:
开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”。
大模型风暴刮起一年,开源与闭源并举已经成为共识。
以GPT-4为代表的闭源大模型,率先在C端引爆热潮。但长期来看,企业级用户出于数据安全、行业定制,以及成本的考量,会更多地将目光投向开源大模型。
OpenAI创始成员Andrej Kaparthy在最近大火的大模型科普视频中就谈到了开源大模型如今的发展趋势:
闭源大模型展现出了更强的性能,但在灵活性和定制化方面,开源大模型有着显著优势,并且其生态正在迅速发展。
大语言模型已经变得像操作系统一样。开源大模型和闭源大模型,正在形成新的Windows/MacOS vs Linux格局。
关键还是在于,“开源”选项加持,意味着在这个新时代里,不用完全把命运交到别人手中。
此番通义千问甩爆开源全家桶,不仅填补上了模型尺寸、模态的空白,也代表着一个信号:
需求驱动之下,开源大模型竞争之势愈卷愈烈。
而随着大模型发展重点从基础模型转向应用层,以技术实力、模型尺寸为基础的初始竞争格局逐渐明朗,生态之争,正在成为新的关键。
— 完 —
点这里👇关注我,记得标星噢
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~