首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

支持 50 万字长文本输入,360智脑7B参数大模型正式开源

360公司近日在GitHub上宣布开源了其360智脑7B(70亿参数模型),这一大模型是通过3.4万亿Tokens的语料库进行训练的,语料以中文、英文和代码为主,并提供了4K、32K、360K三种文本长度选择。值得一提的是,360智脑大模型中的360K(约50万字)文本长度,成为了目前国产开源模型中文本长度之最。

360在多个主流评测数据集上对其模型性能进行了全面验证,包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH以及LAMBADA等,考察的能力范围涵盖自然语言理解、知识储备、数学计算和推理、代码编写以及逻辑推理等多个方面。评测结果显示,360模型在四个评测数据集上拔得头筹,并且整体平均成绩位列第三。

在专门用于测试大语言模型长文本理解能力的LongBench基准测试中,360选择了与中文长文本应用最为紧密的中文单文档问答、多文档问答、摘要生成以及Few-shot等任务进行挑战。结果显示,360Zhinao-7B-Chat-32K模型在这些任务中取得了平均成绩第一的佳绩。

此外,在英文大海捞针测试(NeedleInAHaystack)中,360Zhinao-7B-Chat-360K模型展现了出色的长文本处理能力,准确率高达98%以上。360还参考SuperCLUE-200K测评基准,创建了中文版本的大海捞针测试,并同样取得了98%以上的准确率。

值得一提的是,除了模型权重外,360还慷慨地将微调训练代码、推理代码等全套开发工具集进行了开源,使得大模型相关开发者能够轻松上手,实现“开箱即用”。

据了解,360公司董事长周鸿祎曾表示,大模型行业在卷文本长度方面不断提升,未来100万字将成为标配。他透露,360决定将这一能力进行开源,旨在避免行业内的重复劳动,而选择360K作为文本长度,则寓意着讨个好彩头。周鸿祎还自称是“开源的信徒”,深信开源能够推动行业共同进步。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OBaQ0yp1EKIgPJxKq1XWnMRQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券