首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

北京人工智能数据运营平台发布,并开源超大规模高质量数据集

北京商报讯(记者 杨月涵)6月14日,2024北京智源大会正式开幕,智源大会“人工智能+数据新基建”论坛同步召开。大会现场发布了“北京人工智能数据运营平台”。据介绍,北京人工智能数据运营平台实现数据的汇聚管理、处理加工,并提供多种模态的数据标注支持,支持多种数据汇聚和使用形式,不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。

目前,数据运营平台支持开源开放、积分共享、数算一体三种数据运营模式。“开源开放”模式允许用户在遵守使用协议的前提下自由下载使用。“积分共享”模式面向数据工作组内的成员,根据数据贡献实行积分制,即成员单位贡献数据,按照计分标准获取相应积分,同时获得共享数据的权益。“数算一体”模式针对高价值数据,仅在平台上进行数据加工、训练使用,保证数据不出安全域。

大模型在行业应用时面临着核心的挑战——海量、优质的行业数据集严重匮乏。当前已知的所有开源行业数据集(文本类)仅有约1.2TB,远远无法满足千行百业的模型需求。为此,论坛上,智源研究院还发布了全球最大的多行业中英双语数据集IndustryCorpus 1.0,大幅度提升了全球开源行业数据集的数据量,为大模型的行业落地提供了强有力的保障。

据了解,该数据集包含3.4TB开源的行业预训练数据(中文1TB,英文2.4TB),0.9TB的非开源定向申请的行业预训练数据,以及医疗和教育两个领域的开源高质量指令微调数据共61.3万条。

IndustryCorpus 1.0覆盖了18类行业的预训练数据集,其中科技类334GB,法律类275GB,医学类189GB,金融类198GB,新闻类564GB。除此之外,还包含教育、旅游、体育、汽车等,未来将进一步扩展至30类行业。同步发布的还有医疗和教育两个领域的指令微调数据集。IndustryCorpus 1.0的发布,有望大幅提升模型在专业领域的知识性,助力大模型的行业落地应用。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O4a4nNiAnl-I_ijN7IisvttA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券