首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】Common Corpus - 大型多语言公共领域数据集

Common Corpus,由Pleias、HuggingFace等机构联合打造,是目前最大的公共领域数据集,专为训练大型语言模型(LLMs)而构建。该数据集汇集了来自全球多样文化遗产项目的 5000 亿词汇,涵盖了英语、法语、荷兰语、西班牙语、德语和意大利语等多种语言,是迄今为止最全面的语言资源库。其拥有迄今为止最大的英语数据集,包含 1800 亿词汇,包括美国重要数字化报纸项目Chronicling America的2100万份文献,Nomic AI原创语料库地图,以及Sebastian Majstorovic收集的专著数据。此外,它还包含了目前最大的法语(1100 亿词汇)、德语(300 亿词汇)、西班牙语、荷兰语和意大利语的开放数据集,以及许多在大型语言模型训练中鲜少涉及的低资源语言。Common Corpus的推出,展示了无需依赖Common Crawl等版权受限内容,亦能训练出LLMs,旨在建立一个强大的AI数据共享平台,简化研究流程,提升研究可复制性,推动AI的普及、多样性和民主化,确保大型模型的知识普及与应用。

详情请参见五号雷达:https://www.5radar.com/result?key=Common+Corpus

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ObVe-7Xg5Zp02jy4BRIWRJsQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券