首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大模型时代,如何发挥高质量数据价值是关键

在人工智能概念爆发伊始 , 算法、算力、数据就是重要的三要素 , 在chatGPT掀起人工智能(AI)热潮的当下,AI三要素之一的数据也成为了热门话题。

随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。艾瑞咨询数据显示,包括数据采集、数据处理(标注)、数据存储、数据挖掘等模块在内的AI基础数据服务市场,将在未来数年内持续增长,到2025年,国内AI基础数据服务市场的整体规模预计将达到101.1亿元,整体市场增速将达到31.8%(2024-2025年)。

“大模型的预训练对数据要求特别高,必须在前期进行清洗、标注、标识,但围绕千行百业的数据训练,在数据供给方面也呈现出了许多问题和挑战。” 上海数据交易所副总经理韦志林在媒体采访时提到。

近期,大模型“幻觉”也被各大科技企业频繁提及。大模型“幻觉”指模型生成不正确、无意义或不真实文本的现象,这也常被人们称为是“一本正经地胡说八道”。“幻觉”问题的出现和大模型核心技术原理有关,即Transformer架构下的Next Token Prediction,即“下一个字符的预测”。因此,提高数据的数量、质量和多样性,对于大模型提高性能至关重要。“以数据为中心”,成为越来越多业内人士的共识。

当前,各家大模型在算力和算法方面尚且无法拉开巨大差距,这让“数据”成为各家企业杀出“百模大战”重围的关键之战。

在今年2023年服贸会成果发布上,云测数据全新公布了面向垂直行业大模型的AI数据解决方案,致力于通过场景化的数据服务行业,为人工智能企业和用户提供基础数据集、数据标注和数据管理工具链,进一步提升算法精度。据介绍,该AI数据解决方案可为行业大模型提供从持续预训练、任务微调、评测联调测试到应用发布,全生命周期的高质高效数据,帮助垂直行业企业更好地落地大模型相关算法应用。作为拥有面向行业场景数据采集能力和丰富数据集积累的数据服务商,云测数据可以为行业客户深度定制数据采集标注方案,助力获取高价值场景化数据。

数据是训练大模型的基础资源,以GPT系列模型为例,对比三代模型间使用的数据集,训练所需的数据集在质量和数量方面均不断提升。随着人工智能模型迭代发展,高质量数据集的需求将进一步增长。从自然数据源简单收集取得的原料数据并不能直接用于有监督的深度学习算法训练,必须经过专 业化的采集、加工,形成相应的工程化训练数据集后才能供深度学习算法等训练使用。 目前,带有监督学习的算法对于训练数据的需求远大于现有的标注效率和投入预算,基础数据服务将持续释放其对于算法模型的基础支撑价值。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oz5zFmx38_XKulO_KUfMXkjg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券