首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

RWKV-6 1.6B(2.5T Tokens)模型开源,表现更出色

始智AI wisemodel.cn开源社区

2024 年 3 月 29 日,RWKV 开源基金会宣布正式向全球开源 RWKV-6 1.6B(2.5T Tokens)模型。相比 2 月 9 日发布的 RWKV-6 Finch 1.6B ,最新发布的 RWKV-6 1.6B(2.5T Tokens) 模型在训练过程中额外增加了 1.4T tokens 语料,这使得 RWKV-6 1.6B(2.5T Tokens)在多个任务的表现更出色。

https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world(模型地址)

一、评测数据

本次模型基准测试涵盖了 16 款接近 1.5B 参数规模的开源大语言模型,包括 RWKV 系列中的前代架构,如 RWKV-4 和 RWKV-5,也包括此前发布的 RWKV-6 Finch 1.6B。在测试中,英语的性能测试将通过 12 个独立的基准测试来衡量大模型在常识推理和世界知识等英语内容上的表现。多语言能力的评估中,则采用了 xLAMBDA、xStoryCloze、 xWinograd 和 xCopa 四种基准测试,深度探索了评估模型在多语言环境中的逻辑推理、故事理解、歧义解决和因果推理能力。

可以看到,在增加了 1.4T tokens 的情况下,RWKV-6 1.6B(2.5T Tokens)在基准测试中的英文性能比前面发布的 RWKV-6 Finch 1.6B 有一定提升,多语言性能则获得微量提升,展示了 RWKV 模型的 data scaling 性能。

值得注意的是,在训练 RWKV 时并未加入这些测试的训练集。换言之,没有为获取更佳的评分结果而进行特殊优化。因此,RWKV 模型的能力实际上是比它的评分排行更强的。

二、模型效果

对 RWKV-6 1.6B(2.5T Tokens)模型进行了续写、翻译等多种类型的任务测试,任务内容涵盖英语、日语、西班牙语等多种全球语种。

以下是任务的实际效果:(黄色背景部分为输入给模型的 prompts ,后为模型的输出)

由上图可见,RWKV-6 1.6B(2.5T Tokens)模型在多种语言混合的任务中表现出色。

值得一提的是,用于训练新模型的 2.5 T tokens 语料中只有少量翻译数据,但 RWKV-6 1.6B(2.5T Tokens)模型仍然可以准确地翻译很多未学习的内容,证明模型拥有较强的泛化能力

三、新模型预告

RWKV-5 7B 模型正在升级到 RWKV-6 7B (2.5T),对比 RWKV-5 7B,目前升级进度 10% 的 RWKV-6 7B (2.5T) 模型已有显著提升。

RWKV-6 7B (2.5T) 预计在 5 月中旬升级完成,将在完成升级的第一时间与大家分享新模型。

四、RWKV 模型介绍

RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理,时间复杂度为线性复杂度,在长序列推理场景下具有优于 Transformer 的性能潜力。相对 Transformer 架构,RWKV 架构的推理成本降低 2~10 倍,训练成本降低 2~3 倍。

图:RWKV 架构

RWKV 模型的最新版本是 RWKV-6 ,架构图如下:

图文丨RWKV

编辑丨赵雅鑫

wisemodel相关

系统升级

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O2O3tV3KUnZbiFj4LkUw3nhg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券