前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >拿什么样的大数据来“喂饱”狂飙的大模型

拿什么样的大数据来“喂饱”狂飙的大模型

作者头像
数据猿
发布2024-02-23 19:14:38
1310
发布2024-02-23 19:14:38
举报
文章被收录于专栏:数据猿数据猿

大数据产业创新服务媒体

——聚焦数据 · 改变商业


当前,大模型的发展处于一场充满无限可能的大变革前夜,而作为核心要素的大数据也被赋予了全新的意涵。大模型技术的出现对大数据而言意味着什么,大数据又将如何影响大模型的发展,这两者又如何能更好双向奔赴,带来新质生产力,进入2024年又会出现哪些技术的引爆点和杀手级应用?

带着萦绕在大模型与大数据之间的种种问题,在“第六届金猿季&魔方论坛——大数据产业发展论坛”上,数据猿高级主笔欧小刚作为圆桌论坛的主持人,与香港科技园公司董事,太平绅士,香港特区政府数字经济发展委员会委员车品觉、是石科技副总经理兼CIO侯建业、矩阵起源创始人兼CEO王龙、鸿翼联合创始人兼CTO罗永秀、维音中国副总裁熊伟展开深入讨论,群策群力为大模型与大数据融合发展建言献策。

大数据之于大模型,质量压倒一切

尽管大模型的表现足以让人们惊奇,但不得不承认的是,即便是强悍如ChatGPT,也经常会出现一本正经胡说八道的情形。大模型的忽智忽愚,深受大数据语料的影响,那么我们不禁要问,大数据到底如何影响大模型的发挥呢?

五位嘉宾共同认为数据的质量决定了大模型的质量。车品觉认为,对于大模型而言,大数据的“大”非万能。零散的数据不如真实、逻辑性强的数据有价值。而且到了一个临界点,喂再多零散的语料也不会对大模型的推理效果产生更多作用,高质量的数据可以起到“一语胜千言”之功效。

香港科技园公司董事,太平绅士,香港特区政府数字经济发展委员会委员车品觉

王龙形象地指出,大模型的工作机制就好像是把一个高清图片压缩成一个32kb缩略图,从中找到数据排布的规律,然后按照规律去生成新的高清图。在构建大模型的过程中,大数据集的质量直接决定了模型的性能和预测准确度。构建一个实时、精准的闭环链路,使得数据的采集、处理、训练形成无缝衔接,是推动大模型发展的关键环节。

如果只是在“实验室”,数据质量的好坏可能只是影响模型效果的高低,无非是80分还是60分的区别。但在商业应用领域,只有可用和不可用这两种选项。

罗永秀表示:“大模型为智能文档管理带来的推动作用是不言而喻的。大模型刚一面世,鸿翼就尝试把将其运用在我们的ECM智能内容管理产品当中,但由于它对文档数据的收集、整理、分析和应用是一个持续且动态的优化过程,因此很难形成统一、标准的产品。而在知识管理领域,大模型则如鱼得水,进展飞速。这是因为知识管理蕴含了最严谨、逻辑性最强的知识,比如说产品操作手册,工艺的制作标准等直接决定企业经营生产的内容,对精准度要求极高,而且具备一定的组织规范。基于构建在行业知识库基础上的数据集,不管是进行向量化处理,还是高精度的微调,企业一旦接入大模型,必定为生产效率带来大幅度的提升。”

鸿翼联合创始人兼CTO罗永秀

结合实际应用,熊伟认为:“大模型是语言模型,人类的语言体系比较完整和系统,能够为大模型提供足够充实的语料,因此大模型在理解和生成人类语言方面具有天然优势。我们所从事的客户服务领域是一站式、跨地域、多语言的,大模型能够帮助我们与全世界多个国家无障碍交流,充当智能助手的角色。”

当然,我们也必须清晰地指出,强调大数据“质”的重要性,并非是否定“量”的作用,大数据的质与量并非是对立的关系,两者相辅相成,更庞大的数据量与更高的数据质量,共同决定了模型的质量和性能。

大模型为大数据带来新内涵

过去十年间,互联网的快速发展为大模型的崛起奠定了数据基础,沉淀下来一批极为有价值的数据资产。在过去要进行有效的数据挖掘,不仅要付出巨大的专家成本, 还需要历经数据釆集、大数据预处理、数据标记等一系列烦琐的程序,导致大量的数据无法发挥其价值,成为了“沉睡的金矿”。大模型的出现为大数据带来了全新的气象,同时也对数据库、数据平台等数据基础设施提出了新的要求和考验。

侯建业指出,“在大模型诞生以前,需要处理100T或者PB级数据的场景应用很少,只有类似于气象,生物医药的科研项目才需要如此庞大的数据量。而大模型则让巨量数据的分析应用飞入了寻常百姓家,几乎所有行业都可以用。很多从事大模型研发的企业,动辄就是千亿百亿的参数规模。在上一个信息化发展阶段,产业界嘴边常挂着的是带宽、访问量、存储量这样的词汇,而在新的发展阶段,模型、算力、显卡则成为了热点话题,这是一个新时代的韵脚。”

是石科技副总经理兼CIO侯建业

大模型就像一个通过新工艺改进的钻井平台,能够将埋藏在地底更深处的深层石油探测出来。大数据作为数字时代的生产要素,它有着不同于封建时代和工业时代生产要素的特性,大数据可以复用,可以无限再生。大模型技术的广泛应用将衍生出天量的全新数据。

“现在很多短视频,文本都是大模型生成的。大模型的广泛应用对企业数据量带来了巨大的增加,可以说大模型是大数据的大脑。此前散落在企业不同部门间的文件和各类数据类资产,都会因为大模型的出现而重见天日,价值再现。”罗永秀如是说。

大模型既能分析大数据,又能生成大数据,这些生成的大数据都是前一秒这个世界所没有的,我们要怎么看待这些由大模型创造出来的“前所未有”的数据呢?

王龙认为,大模型是个概率系统,目前写新闻稿还勉强可用,但是写一份公司的财务报告,大模型可能10000条内容都是对的,只有一条是错的,而且糟糕的是,用户也不知道那一条错的在哪里,什么时候会出错,在这种情况下企业就不敢把这件事全部交给大模型来办。确保大模型输出的信息真实、准确是当前非常重要的问题。随着大模型在各个领域的广泛应用,其输出的信息直接关系到决策的准确性和社会的稳定运行。

矩阵起源创始人兼CEO王龙

熊伟指出,训练大模型意味着投入海量的数据,如何在保障隐私的基础上释放数据的价值,对于各行各业的企业来说都将是一个重要挑战。随着AIGC应用越发广泛而深入,通过模型训练优化、安全加密技术升级和合规监管体系的逐步完善,数据的安全性和隐私性将会得到很大的提升。

维音中国副总裁熊伟

有分析家指出,每一次科技革命大致都要经历两个时期:前二三十年为导入期,在此期间,大量基础设施和关键产业日渐形成并逐步得到完善,它们在遇到旧范式抵抗的同时,也被新的范式所冲垮和颠覆;后二三十年为展开期。前期积累的结构性矛盾在制度框架调整下得以舒缓,科技革命带来的变革力量逐渐扩散到整个经济社会之中,使经济增长重新进入可持续增长模式。

带着人们无限期待大模型进入了2024年,嘉宾们对于新一年大模型的发展都表达出积极的态度。罗永秀认为,在整个经济发展增速放缓的背景下,企业经营将更加重视降本增效,企业可能会裁员减少各项支出,但是对于数据资产管理和知识管理的投入将会是增加的。王龙则更加乐观,他认为:“在大模型的上游和下游都有很多机会,上游的机会来自大模型训练、推理等基础设施环节;下游的机会则来自应用层,比如多模态的内容生成。我相信,未来20年的微软和今日头条可能就在24年诞生。”

AI copilot、AI agent、AI PC等多个大模型的技术分支正在朝着各自的方向奋力进发,引爆点、杀手级应用也许会以人们意想不到的方式在一夕之间惊艳世人。大模型与大数据就像量子纠缠一样,加速向产业交汇,更推动数据科学走向新纪元。这种融合为我们打开了通往更深层次洞察和智能决策的大门,引领着数据科学的全新时代。

文:俊驰 / 数据猿 责任编辑:凝视深空 / 数据猿

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-01-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据猿 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档