首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

服务AI产业发展,北数所加速激活“沉睡”数据

人工智能时代,数据是新型生产要素。近日,记者在“发展新质生产力,扎实推进国企高质量发展”主题采访时了解到,作为北京打造全球数字经济标杆城市的主平台,北京金控集团旗下北京国际大数据交易所(简称“北数所”)全力搭建基础设施,加速汇聚“沉睡”于各处的数据资源,使之变成数据产品流通起来。

在北京国际大数据交易所,参观者在了解数据在各类市场主体之间合规流转以及数据的跨域安全流动情况。

手里有数据怎么用,数据如何价值变现?北京国际大数据交易所相关负责人说,让数据在各类市场主体之间合规流转、实现数据的跨域安全流动,正是交易所的一大核心功能。

作为新生事物,交易所成立刚满3年,数据交易的市场生态在加速形成。以数据要素供给为例,交易所已联合大型头部机构和企业推进建设多元化社会数据专区,涵盖交通、气象、能源、金融、文化、通信、工业、科学、时空、自动驾驶、算力交易、人工智能等多个领域。目前,交易所已培育数据交易、数据运营、数据服务、数据登记等各类数据商400多家。

作为新质生产力的代表,人工智能近年来异常火热。发展人工智能,高质量的数据是核心要素之一。以人工智能大模型训练数据为例,过去通过互联网收集的免费数据已不能满足训练需要,人工智能企业普遍面临着数据需求。而与此同时,过去发展中形成的大量数据仍分散在各个单位或市场主体内部,这就导致中文语料库“激活”的比例很低。

数据交易所要做的就是建立一整套完善的交易服务体系,帮助市场需求对接,并将原始数据“挖掘”成为数据产品,释放数据资产的价值,通过交易来满足这种市场需求。作为数据流通交易的枢纽,交易所扮演的角色就如同数据的“中央厨房”。

目前,交易所正在持续推动建设更大规模的大模型训练语料库,推动非公开数据集和算力进场交易,为北京AI原生产业发展提供支撑保障。

就在近期,交易所刚刚发布北京100个人工智能大模型高质量训练数据集。数据集首次汇聚来自中国科学院大气物理所、北京科学技术研究院、中国知网、中汽智联、北京牡丹集团、北方健康、中文在线、中国搜索等36家单位提供的非公开数据集,内容涵盖专业知识问答、古今文化书籍、互联网舆情资讯、多语种音视频、教学资源题库、科研数据、高清图片等多领域、多模态的数据语料,涉及科技创新、金融服务、医疗健康、医药研发、自动驾驶、气象服务、商业航天、影视创作等20多个应用场景,共计100余类语料数据,数据总量逾150PB(存储单位,1PB等于1024TB)。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ORx2QwHOe96GXgTUYA8itzJA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券