首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】FineWeb - 15 万亿Token的高质量网络数据集

FineWeb是一个由Hugging Face提供的大规模英语网页数据集,包含超过15万亿个经过清洗和去重的Token。该数据集基于95个CommonCrawl数据集构建,总数据量达45TB。这些数据集覆盖了从2013年夏季至2024年3月的网络数据,涵盖了英语领域的广泛主题。FineWeb的主要目标是为研究公共数据在大模型(LLM)预训练中的应用提供资源。通过使用datatrove库对CommonCrawl数据进行精细处理、过滤和去重,FineWeb成为了目前最大且公开可用的干净的LLM预训练数据集。在FineWeb上训练的模型在性能上超越了RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama等其他数据集。

详情请参见五号雷达:https://www.5radar.com/result?key=FineWeb

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O6014rVZbaHhASe0godcUTSw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券