【五号雷达-数据快讯】Common Corpus - 大型多语言公共领域数据集

文章来源：企鹅号 - 五号雷达

Common Corpus，由Pleias、HuggingFace等机构联合打造，是目前最大的公共领域数据集，专为训练大型语言模型（LLMs）而构建。该数据集汇集了来自全球多样文化遗产项目的 5000 亿词汇，涵盖了英语、法语、荷兰语、西班牙语、德语和意大利语等多种语言，是迄今为止最全面的语言资源库。其拥有迄今为止最大的英语数据集，包含 1800 亿词汇，包括美国重要数字化报纸项目Chronicling America的2100万份文献，Nomic AI原创语料库地图，以及Sebastian Majstorovic收集的专著数据。此外，它还包含了目前最大的法语（1100 亿词汇）、德语（300 亿词汇）、西班牙语、荷兰语和意大利语的开放数据集，以及许多在大型语言模型训练中鲜少涉及的低资源语言。Common Corpus的推出，展示了无需依赖Common Crawl等版权受限内容，亦能训练出LLMs，旨在建立一个强大的AI数据共享平台，简化研究流程，提升研究可复制性，推动AI的普及、多样性和民主化，确保大型模型的知识普及与应用。

详情请参见五号雷达：https://www.5radar.com/result?key=Common+Corpus

发表于: 2024-03-242024-03-24 11:11:09
原文链接：https://page.om.qq.com/page/ObVe-7Xg5Zp02jy4BRIWRJsQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

【五号雷达-数据快讯】Common Corpus - 大型多语言公共领域数据集

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐