首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】MAP-CC - 大规模开源中文预训练数据集

MAP-CC(Massive Appropriate Pretraining Chinese Corpus)数据集由Multimodal Art Projection 、复旦大学、北京大学等机构共同研发,是一个大规模的开源中文预训练数据集。该数据集包含800亿个Token,由多个子集组成,每个子集都来自不同的数据源,如:博客、新闻文章、中文百科全书、中文学术论文、中文图书等。MAP-CC通过精心设计的数据清洗和筛选流程,提高了中文网络语料库的质量,为学术界和工业界提供了高质量的中文预训练数据和有效的数据准备方法。该数据集的构建突破了传统以英文数据为主的训练模式,为非英语语言特别是中文的深度学习和理解能力提供了新的研究范式。

详情请参见五号雷达:https://www.5radar.com/result?key=MAP-CC

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Olbaakb50OUIAiGjN-ObzUDg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券