首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

360智脑开源升级7B参数模型360Zhinao3-7B,实力大升级

各位科技圈的朋友们,最近360集团又有新动作啦!他们宣布开源升级了自研的7B参数模型——360Zhinao3-7B,而且还把它放到了Github开源社区,供大家免费商用。这消息一出来,可是在科技领域掀起了不小的波澜。

成本降低,效果提升,这波升级太值了

这次360Zhinao3-7B模型的升级,那可真是下了大功夫。它仅仅通过增量训练700B的高质量token,就取得了显著的效果提升。要知道,它的前代模型360Zhinao2-7B可是用了10.1T token呢,成本高了不少。但这次升级后的360Zhinao3-7B不仅成本大幅降低,推理成本还没增加,这性价比简直拉满!

数据筛选严格,配比优化,模型能力更强

360智脑团队在数据筛选上可是花了不少心思。他们加大了筛选力度,离线训练了多种数据筛选模型,就像给数据来了一场严格的“选秀”,对不同种类的数据进行分档打分,把数据质量提了上去。

而且,他们还调整了数据配比。以前模型里网页和书籍的数据占比有点高,这次他们大幅增加了数学、代码、指令等数据的占比,让模型在这些方面的能力得到了提升。这就好比给一个学生调整了学习计划,让他在自己擅长的领域更进一步,同时也提升了指令遵循和推理能力,就像让学生变得更听话、更聪明了。

长文本预训练加持,处理能力更上一层楼

360Zhinao3-7B模型还增加了长文本预训练阶段。以前模型的最大窗口长度是4k,现在直接提升到了32k,ROPE的base也从1w改为了100w。在长文本预训练阶段,团队还增加了超长文本和长代码的比例,这就好比给模型装上了一个“长焦镜头”,让它能更清晰地看到长文本里的细节,进一步优化了长文本处理能力。

多维度评估,微调策略多,模型竞争力十足

为了检验360Zhinao3-7B模型的效果,360智脑团队可是下了血本,用开源工具opencompass对模型进行了多维度评估。结果显示,在10B尺寸附近的模型中,360Zhinao3-7B模型那可是相当有竞争力。

在微调阶段,团队采用了多种策略,像蒸馏、强化学习等,就像给模型来了一场“特训”,进一步提升了它的性能。在长思维链训练中,360Zhinao3-7B模型经过了四个阶段的训练,就像一个运动员经过了长期的刻苦训练,最终在数学和科学数据上展现出了与从0训练的7B推理模型相当的竞争力。而且在通用多轮对话、角色扮演及复杂指令遵循上,它的表现更加出色,就像一个多才多艺的明星,什么场合都能应对自如。

开源推动发展,端侧应用前景广

360智脑团队表示,开源360Zhinao3-7B模型,就是希望能推动AI技术的发展,给开发者们提供更强大的工具。这个模型可不只是在数学和科学领域厉害,在端侧应用上也有着广泛的应用前景。说不定以后咱们的手机、电脑等设备里,都能看到它的身影,给咱们带来更智能的体验。

说不定你也能从这个模型中找到灵感,开发出属于自己的黑科技呢!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OqF6BhbFcE8NNMMOv2gLjSXA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券