首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

专家寄望上海构建更好数据生态环境

当许多人认为自己正遭遇“数据爆炸”之际,顶尖专家却在担忧数据不足。他们认为,高质量数据的缺乏可能限制经济发展,并让人工智能(AI)大模型陷入“无米之炊”。昨天在沪举行的2023全球数商大会上,多位专家呼吁,要重视高质量数据供给,加强数据共享和流通,以适应未来AI与数字经济发展的需要。

硅谷人工智能研究院院长兼创始人皮埃罗·斯加鲁菲在主旨演讲中给出一个惊人的判断:2026年,世界就有可能进入“数据枯竭状态”。也就是说,届时人类可能找不到足够多的数据“喂”给ChatGPT这样的AI大模型。

斯加鲁菲所说的“数据枯竭”,本质上是一种结构性短缺——亿万人虽然每天都在不停产生数据,但高质量数据依然不足。斯加鲁菲说,ChatGPT这样的AI大模型,和我们在此前沿用了80多年的冯·诺依曼架构不同,它不再是基于精确的数学,因此,AI大模型时常会犯低级错误,给出傻傻的回答。本质上,这类AI的最终表现很大程度上取决于被“喂”的数据质量。目前来看,在日常生成的海量数据中,只有20%到30%的数据质量能符合AI大模型的要求。

但ChatGPT能力的迭代,使它对数据的需求正以几何级数增长。上一代GPT3的训练参数为1750亿,GPT4参数量虽然没有公布,但有分析认为,这个数字可能是GPT3的100倍之多。而且,未来更聪明、更强大的AI大模型,其对训练数据的需求还将继续快速增长。

不仅是斯加鲁菲,“数据20条”制订专家组组长、中国工业经济学会会长江小涓也对数据缺乏提出警示。在昨天的大会上,江小涓表示,中国是目前全球当之无愧的数据大国,但针对AI大模型的需求,高质量、高标准中文语料库的建设面临非常大的挑战,“假如没有好的语料去喂大模型,那么,将来AI生成的内容对当代中国的阐述就会严重不足,进而会影响中华民族在元宇宙中的地位。”

面对可能的数据枯竭,斯加鲁菲的建议是构建一种环境,让拥有高质量数据的小企业也能从中获利,由此激励优质数据的生产和流动。他说,目前有一种趋势,就是只有大公司才能为超强的算力和超大的数据集买单,才能因此完成“数据变现”、获得盈利。而在他看来,必须改变这个局面,形成一种“雨露均沾”的激励机制,从而让小企业可以通过深耕“小数据”获得大收益,“这就像可以用一小块金子,换到一大片土地一样”。同时,他建议公众关注一个新职业——数据策划师,这个工作的职责就是借助工具和自身能力,筛选出高质量数据,“拥有这样人才的组织,一定会成功。”

江小涓并没有对如何构建高质量中文语料库的话题进行展开,但她表示,主管部门应该更加重视数据要素市场的整体培育,更支持数据服务商发展,并让数据的流通特别是跨境数据流动能更加便捷。她同时强调,国内政府部门和各公共部门拥有大量高质量数据,但开放共享依然不够,导致数据利用率不高,“政府数据开放是社会数字化水平和数字文明的重要标志。”

斯加鲁菲也对中国充满期待。他表示,美欧都对数据共享设定了诸多限制,压制了共享的动力,“我希望看到上海能构建更好的数据生态环境,鼓励更多的数据交换和数据共享。”     

作者:张懿

文:本报记者 张懿图:范家乐编辑:施薇

转载此文请注明出处。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Of3cUHWGrhHhLtknhnRjHQ1A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券