首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Together AI 发布 RedPajama v2:包含 30 万亿 token 数据集,用于大模型训练

据站长之家 11 月 6 日报道,AI 初创公司 Together AI 发布 RedPajama v2,这是一个包含 30 万亿 token 的数据集,旨在支持大型语言模型的研究和开发。

研究人员从 CommonCrawl 和其他公开可用的网络数据中提取了原始文本数据,其中包括 40 多个质量注释和去重集群。他们计划扩展这些注释,以包括与常用 LLM 基准的比较、主题建模和分类注释等内容,以促进更深入的研究。据悉,RedPajama v2 的数据集还经过最小处理,以保持尽可能多的原始数据,并让模型构建者在后续处理中进行过滤和重新加权。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwlKrsReZHQglXYQ5tLVWl5A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券