首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

姜春宇:数据+AI是未来人工智能的核心能力,AI数据治理体系亟待建立

中国信息通信研究院云大所大数据与区块链部主任姜春宇在腾讯科技Hi Tech Day上演讲

12月14日,以“智能涌现 数开万物”为主题的腾讯科技Hi Tech Day暨2023数字开物大会在北京国家会议中心召开,邀请知名院士、知名经济学家、知名大学教授、研究院院长、产业大咖、互联网大厂高管、知名科技领域头部企业高管、产业数字化转型企业高管等共话AI趋势。

中国信息通信研究院云大所大数据与区块链部主任姜春宇在此次大会上发表了主题为《AI数据治理发展思考》的演讲。他表示在AI时代,数据和算法、数据和模型是一体的。没有好的数据,模型的能力肯定会有所欠缺,所以当下在大模型领域,人们开始意识到如何获得「好数据」这个问题,是所有的从业者都无法逃避的问题。

但在人工智能数据完善的同时,相应的数据安全保护体系也亟待建立。他表示行业需要构建全生命周期的数据安全与隐私的保护能力。因为在整个模型训练过程中,会有大量安全和隐私的问题,这里会涉及很多类型的技术环节,需要具备相应的数据安全规则,也需要提高人员审核、监测的能力,这些是全新的领域,值得关注和投入。

面向AI数据质量的评价体系和工程体系,都是解决数据质量问题的,评价未来如何提升,方法和工具需要配套起来。安全和隐私保护全生命周期能力建设,决定了大模型的生命力,因为要为整个社会提供服务,安全、隐私保护和伦理的能力是必备的。很多技术不光是商业行为,背后有很多社会的问题、经济的问题需要我们考虑。

以下是姜春宇的演讲实录:

非常荣幸参加本次大会,我是来自中国信通院的姜春宇,今天为大家做一个有关人工智能数据的分享,刚好也看了今天上午的三个 Keynote,设置得非常有意思,都是讲算力的,我是分享数据的,包括跟模型本身有关的发展和思考,刚好是当下人工智能发展的三个核心要点。

通用人工智能已经成为一场技术革命,包括现在各种各样的大模型,语言大模型、视觉大模型、音频大模型等等,这些可能只是在AI大门刚刚打开后,刚够到人工智能的入门门槛。前面我们所说的很多人工智能可能都谈不上(真正的AI)。我们也看到从2018年到今天,大模型领域的百模大战、千模大战的场面,可谓大家纷纷重资投入到大模型训练的过程里面,基本都是All In这样的态势。我们的基本认识也是这样,就是一个入门级的,未来还有更多智能的等级。

数据已经成为通用人工智能训练的核心要点之一,数据、算力和算法,可以看到算法领域差距不算特别大,很多开源的框架,算力有一定的难度,但国内也在积极布局,比较大的希望就是数据端,因为我们天然是一个数据大国,人工智能的发展从以模型为中心向以数据为中心的方向转变,这些是一系列硅谷科学家提出来的,与其训练模型,不如把数据质量提升一下,可能带来的效果会更好。

大模型训练需要的大规模、多样化、高质量的数据集在不断变化,GPT-1四五年前需要4.8GB的高质量数据,GPT-2 是40GB,GPT-3是570GB,今年Meta推出大模型具有4000GB的规模,我们相信质量和多元性是更好的,有了上千倍的增长。不光是卷模型参数,同时也在卷数据规模、质量的多样化。

人工智能发展面临很多数据的挑战,传统BI企业经营的模式下,我们对数据的价值和治理的价值往往还是有质疑的,因为它是一个下水道工程,体现的没有那么明晰,但到了AI领域,我们发现数据和算法、数据和模型是一体的。没有好的数据,你的模型肯定不行,所以大家突然意识到没有办法逃避数据这个问题。

可训练的、高质量的数据集在市面上不多,尤其是在中文的语境下,很多高质量的数据都被捂起来了,亟待通过一种模式,市场化的、开放的或者哪一种模式释放出来,能够让大家使用起来。

国内IT发展路径是先污染后治理,所以质量普遍偏差,需要有数据质量相关的评价维度变化,提升数据质量的工艺和工程能力需要加强,这些跟传统的结构化数据不一样。

同时安全和隐私的风险也要兼顾,整个模型的使用和部署过程中有大量数据的问题,稍不留神,企业和个人的数据可能就会被泄露出去,所以安全和隐私问题很大。

生成内容、合成内容如何管理,很多大模型一本正经地胡说八道,涉及的内容如果涉政、涉暴怎么办?包括内容生成的隐私风险等等。偏见与歧视也有一系列的问题。

我自己也有几个思考:面向人工智能数据治理的理论和方法刚开始,面向传统的结构化数据、面向BI的数据治理体系已经发展十几年甚至三十年,通过数仓和BI的理论发展已经比较完善,布满数据管理框架,国内数据管理成熟度的模型,所以结构化数据应该怎样管理?

大家多多少少有些工具和方法,通过数据质量的管理、数据应用、数据安全、数据标准、元数据,无非就是这些内容,但是面向AI的数据治理框架和方法是空白,学术圈的研究也不是特别领先,涉及到多模态的数据管理,80%都是非结构化数据管理,未来生成的内容怎样管理?质量、安全是不是要重新定义?可能跟现在的结构化数据评价方法和治理手段都是不一样的,所以出现了一个巨大的蓝海市场,我们观察了一圈,好像没有太多机构在跟进。

很重要的一块就是质量,传统的结构化数据质量很简单,就是六性原则,其它的评价方法无非是七性八性,完整性、一致性、及时性、可用性等等,背后就是维度生成的质量规则,这些都很明确。人工智能数据集可能的评价维度是可以确定的,跟六性不太一样,有着自己一整套的评价维度,应该如何定义?这些是列出的可能的维度,完全可以再增加,包括时效性、代表性、可追溯性、可访问性,包括人工智能数据集质量的评价工具、检测工具、规则,可能跟原有的结构化不一样,所以这些就是很关键的一点。

如何把质量差的数据集变成质量高的,我们讲的是数据工程体系,DevOps研发运营的体系,从研发交付、数据运维、价值运营形成一套数据的生产链或者供应链,能够把数据交付起来,慢慢地串联起来形成生产流水线。大模型的数据原料如何提升质量,怎样提升各种各样的内容能力?

这里也有大量的工作要做。很多企业都把时间花在模型训练上,但你们想过没有,数据不好,训练一次几千万美金就没了,很多大模型训练发现最大的问题就是数据不行,结果白训练了,训练完了模型质量不够,回过头来又得去做大模型数据质量的提升工作,拜拜浪费金钱。这里包括很多数据工作,采集、存储、清洗、增强、减弱等等,我们也在进行方法论和框架的梳理。

我们需要构建全生命周期的数据安全与隐私的保护能力,整个训练过程中都有大量涉及到的安全问题和隐私问题,包括执行权、个人信息的违规收集,数据整个传输不安全,整个数据信息篡改、模型不安全的存储和传输,Prompt 攻击、生成内容违规等等,如何在模型生产、使用、运营,整个全生命周期建立起隐私保护或者安全保护的能力。这里可能有很多类型的技术,我们也需要具备相应的规则,也要整体配备人员的审核、监测的能力,这些又是全新的领域,值得大家关注和投入。

合成数据生成内容管理,要看真实性和准确性,不能胡说八道,也不能偏离事实太远,虽然你是生成的,不能是一个骗子,所以真实性和准确性需要衡量,有害性如何检测和防范?现在很多大模型报备原因就在于此,包括骚扰、暴力、歧视等等,这些问题必须管控起来,合成数据的隐私保护,可能有个人的、公司的商业秘密。不同的领域真实性、准确性可以有些规则约束,内容生成要求、监测机制和真实性评估,有害性问题可以通过内容识别和过滤自动检测+人工审核,使用规则的约束,线路预测、经验隐私评估和隐私攻击测试等等,这些领域都是处于空白的时间段,急需要被完善。

最后做一个总结和展望:人工智能的五数据治理体系框架、方法急需被建立起来,刚好院里正在牵头开展相应的工作,马上要写一本人工智能数据治理的白皮书,目的就是建立这一领域的方法和规则体系,哪些工作需要干,干的步骤和内容有哪些,我们需要建立起来。面向AI数据质量的评价体系和工程体系,都是解决数据质量问题的,评价以后怎么提升,方法和工具需要配套起来。安全和隐私保护全生命周期能力建设,可能决定了大模型的生命力,因为要为整个社会提供服务,安全、隐私保护和伦理的能力是必备的。很多技术不光是商业行为,背后有很多社会的问题、经济的问题需要我们考虑。现在很多大模型公司已经不单单是科技公司,也有很多社会学问在里面。生成合成数据的管理框架,需要进行哪些有害性、真实性的检测,因为这里会出现很多版权问题、内容有害性问题、隐私保护问题等等,怎样管控起来形成一套工具也是我们在关注的。

我们在数据智能领域有一个大的布局,人工智能数据治理是其中很重要的方向,包括数据智能的研究、标准的工作,我们已经在筹备,分为几个方面:数据智能基础设施标准体系,智能平台和向量数据库,我们归类到为数据和智能打造基础设施。人工智能数据治理质量的、工程的、安全的标准。大模型怎样赋能数据,通过自然语言去做数据分析,应该已经有很多产品。人工智能怎么赋能数据管理、赋能数据安全、赋能数据分类分级。我们也有一些沙龙,创新实验室和案例汇编,目前正在干相关的工作,就是基础设施、数据职能、数据治理和 AI 优化。我们认为数据+AI一定是未来最核心的能力、最核心的体系,所以也会朝着这个方向一起努力。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OfL9rBanRU4uhxp-IDM2lRWA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券