各位科技圈的朋友们,最近360集团又有新动作啦!他们宣布开源升级了自研的7B参数模型——360Zhinao3-7B,而且还把它放到了Github开源社区,供大家免费商用。这消息一出来,可是在科技领域掀起了不小的波澜。
成本降低,效果提升,这波升级太值了
这次360Zhinao3-7B模型的升级,那可真是下了大功夫。它仅仅通过增量训练700B的高质量token,就取得了显著的效果提升。要知道,它的前代模型360Zhinao2-7B可是用了10.1T token呢,成本高了不少。但这次升级后的360Zhinao3-7B不仅成本大幅降低,推理成本还没增加,这性价比简直拉满!
数据筛选严格,配比优化,模型能力更强
360智脑团队在数据筛选上可是花了不少心思。他们加大了筛选力度,离线训练了多种数据筛选模型,就像给数据来了一场严格的“选秀”,对不同种类的数据进行分档打分,把数据质量提了上去。
而且,他们还调整了数据配比。以前模型里网页和书籍的数据占比有点高,这次他们大幅增加了数学、代码、指令等数据的占比,让模型在这些方面的能力得到了提升。这就好比给一个学生调整了学习计划,让他在自己擅长的领域更进一步,同时也提升了指令遵循和推理能力,就像让学生变得更听话、更聪明了。
长文本预训练加持,处理能力更上一层楼
360Zhinao3-7B模型还增加了长文本预训练阶段。以前模型的最大窗口长度是4k,现在直接提升到了32k,ROPE的base也从1w改为了100w。在长文本预训练阶段,团队还增加了超长文本和长代码的比例,这就好比给模型装上了一个“长焦镜头”,让它能更清晰地看到长文本里的细节,进一步优化了长文本处理能力。
多维度评估,微调策略多,模型竞争力十足
为了检验360Zhinao3-7B模型的效果,360智脑团队可是下了血本,用开源工具opencompass对模型进行了多维度评估。结果显示,在10B尺寸附近的模型中,360Zhinao3-7B模型那可是相当有竞争力。
在微调阶段,团队采用了多种策略,像蒸馏、强化学习等,就像给模型来了一场“特训”,进一步提升了它的性能。在长思维链训练中,360Zhinao3-7B模型经过了四个阶段的训练,就像一个运动员经过了长期的刻苦训练,最终在数学和科学数据上展现出了与从0训练的7B推理模型相当的竞争力。而且在通用多轮对话、角色扮演及复杂指令遵循上,它的表现更加出色,就像一个多才多艺的明星,什么场合都能应对自如。
开源推动发展,端侧应用前景广
360智脑团队表示,开源360Zhinao3-7B模型,就是希望能推动AI技术的发展,给开发者们提供更强大的工具。这个模型可不只是在数学和科学领域厉害,在端侧应用上也有着广泛的应用前景。说不定以后咱们的手机、电脑等设备里,都能看到它的身影,给咱们带来更智能的体验。
说不定你也能从这个模型中找到灵感,开发出属于自己的黑科技呢!
领取专属 10元无门槛券
私享最新 技术干货