凯哥｜数据集这玩意儿，到底凭什么改变了 AI？

凯哥

发布于 2025-12-24 18:09:37

280

文章被收录于专栏：凯哥讲故事系列凯哥讲故事系列

欢迎大家关注“凯哥讲故事系列”公众号，我是史凯

给你最本质，最实战的数字化转型指南

数据集这玩意儿，到底凭什么改变了 AI？

夜里，大富在家刷手机，刷到一句话：

「ImageNet 这种开放标注数据集，是深度学习能成为一门‘技术科学’的关键基础设施之一。」OUP Academic

他盯着这行字发呆。

大富：「奇怪，大家一说 AI，都在聊大模型、显卡、算力，怎么越研究，越发现底座那一层——其实是数据集？」

大贵那边正在赶方案语音，顺手回了一句：

大贵：「以前我们只盯着厨师和灶台，现在终于意识到——菜从哪儿来、怎么洗，才是决定一桌菜上限的东西。 数据集，就是那一筐一筐挑过的菜。」

这篇就来聊清楚几件事：

数据集的前世今生：从 MNIST 小黑白数字，到 ImageNet、COCO 这些「历史级」数据集，李飞飞在其中扮演了什么角色。
数据集 vs 数据库 / 数据仓库 / 数据中台 / 语料 / 知识库：都是「数据」，差别到底在哪儿？
为什么说现代 AI 的几次大爆发，都踩在数据集身上？
对中国企业来说：你现在手里的 CRM、流水、日志，离「能喂给 AI 的数据集」，中间还差几步？

中间穿插一点大富大贵的碎嘴，把抽象概念拆成能落在脑子里的画面。

一、从手写数字到 ImageNet：几桶「关键数据」改变了 AI

先把时间线拉一拉。

1. 机器视觉的 Hello World：MNIST、CIFAR 那些「小水池」

在 ImageNet 之前，机器学习圈里已经有一些经典数据集，被称为「Hello World」级别：

MNIST：手写数字识别，7 万多张 28×28 像素的黑白数字图片，经常被叫作计算机视觉的「Hello World」。Daniel Berleant Home Page+1
CIFAR-10 / CIFAR-100：32×32 小彩色图片，CIFAR-10 有 10 类、CIFAR-100 有 100 类，一共 5 万张训练图、1 万张测试图。Medium+1

大贵：「简单说，MNIST 就是给小孩练字帖， CIFAR 是给小孩看连环画。」

这些数据集的意义在于：

让大家可以用同一桶数据，公平比较不同算法的好坏；
也让研究生写论文和做作业有了一个「大家都认」的标准靶子。

但它们规模有限、内容简单，不足以支撑今天这种「大模型 + GPU + 海量场景」的 AI 爆炸。

2. 李飞飞和 ImageNet：真正把水池挖成了大海

真正改变游戏规则的是 ImageNet。

2006 年，李飞飞开始想这件事：当时大家都在拼算法，她偏偏盯上了「数据不够」这个冷门问题。维基百科+1
2009 年 ImageNet 完成第一版，最后扩展到 1,000 类、1,400 万张标注图片，用 WordNet 的词汇体系去组织类别。维基百科+2History of Data Science+2
2010 起，ImageNet 办起了年度大赛（LSVRC），大家用同一份数据，比谁的模型在物体识别上更准。维基百科+1

关键的一年是 2012：

Hinton 团队用一个深度卷积网络 AlexNet 在 ImageNet 竞赛上把错误率直接拉低了十几个百分点；WIRED+1
很多人把这一刻称作「现代深度学习时代的 Big Bang」。alumni.princeton.edu+1

李飞飞自己后来感慨：「ImageNet 改变的一件事，是让大家意识到： 那些辛苦做数据集的‘脏活累活’，其实是 AI 研究的核心。」BrainyQuote+1
大富：「听懂没？以前大家都在研究怎么造更帅的发动机，她说：兄弟们，油箱里只有半桶油，你研究再多活塞也没用。」

ImageNet 做了三件事：

量变：从几万张小图片，变成上千万张、上千类别的大型数据集；
质变：标注更细，类目更贴近日常世界；
共识：全球研究者围绕一个标准数据集卷，进步可以快速对比、累积。

3. COCO 等一众「场景级」数据集：不只看物体，还看世界

ImageNet 之后，大家意识到好数据集的威力，开始往「场景理解」方向进化。

代表之一是 MS COCO（Common Objects in Context）：

2014 年发布，目标是让模型不仅认出物体，还要理解「物体在场景中的关系」。arXiv
包含约 33 万张图、2,500,000 个标注实例、91 种日常物体类别（后来任务里常用 80 类），强调「自然场景里的常见物体」。arXiv+2加州理工学院作者+2
不止有框（bbox），还有像素级分割、多对象、文字描述，是检测、分割、图像描述的标配 benchmark。cocodataset.org+1

大贵：「如果说 ImageNet 是一张张‘证件照’， COCO 就是一张张生活照—— 桌上有杯咖啡、旁边趴着只猫、远处还有个人在打电话。」

随着 COCO、Places、SUN、LSUN 等数据集出来，计算机视觉从「认出这是什么」走向「知道这在哪、跟谁在一起，在干嘛」。维基百科+1

同时也暴露另一个问题：数据集越大越复杂，标注错误、漏标、模糊边界就越多，搞到后面，还得专门出 COCO-ReM 这种「给 COCO 纠错重标的二次数据集」。arXiv+1

大富：「这就像高考出题出多了，最后还得开个组给往年的试卷纠错。」

二、数据集和 AI 的关系：不是「喂点数据」，而是定义了 AI 能力边界

很多人下意识觉得：模型是主角，数据是「吃的」。

但从 ImageNet 这代开始，整个范式其实变成了一句：

「什么样的数据集，就有什么样的 AI。」

1. 数据集决定了「AI 能看见什么」

MNIST 教会模型「看清手写数字」；arXiv
CIFAR 教模型认十几种常见物体；Medium+1
ImageNet 把物体类别扩展到 1,000 种，涵盖你日常生活里能见到的大多数东西；维基百科+2ImageNet+2
COCO 则让模型练习在拥挤的真实场景里找东西、看关系。arXiv+1

模型只会在数据空间里变聪明。 你给它什么样的世界，它就变成什么样的专家。

大贵：「你拿看手写数字的数据，去训一个看 CT 片的模型，就像给一个拉大提琴的，扔到工地上让他开塔吊。不会说完全不行，但风险你懂。」

2. 数据集把「实验」变成了「竞技场」

开放数据集还有一个杀伤力极强的效果：

大家都用同一份数据，
每年搞竞赛（ImageNet Challenge、COCO Challenge），
所有论文必须在这套数据上汇报结果。WIRED+1

这直接把整个学界/业界拉进了一条快车道：

新模型出来，立刻可以跟上一代比，
各种 Trick、结构调整都能「按分数说话」，
投入 GPU 的人越多，进步越快。

大富：「以前 AI 研究有点像各门各派闭门练功，现在有了统一擂台，大家都在同一块地上卷。」

3. 大模型时代：从标注图到大语料，再到「数据要素」

到了大模型时代，数据集不止是 ImageNet 这种标注图：

文本大模型（GPT 系列、各种 LLM）依赖的是海量语料：网页、书籍、代码库、论坛帖子；
多模态模型需要图文对齐的数据集；
背后依然离不开「谁去收、谁去清洗、谁来定边界」这几个问题。

研究也开始反思：

为什么深度学习能变成一个完整的技术体系？
有学者直接指出：开放标注数据集，是让深度学习成为一门「技术科学」的关键基础设施，没有这些公共基准，很多进步不会如此快地累积。OUP Academic+1

大贵：「模型像选手，算力像健身房，数据集就是联赛和比赛规则。没联赛，你很难把一项运动练成全球产业。」

三、数据集 vs 数据库 / 数据中台 / 语料 / 知识库：都叫「数据」，差别到底在哪儿？

很多企业现在都说「我们数据很多啊」，结果一看：

各种业务系统里堆着交易记录、日志、埋点；
中台里有一堆宽表、指标；
内容团队有一堆文稿、客服对话。

大富的经典总结是：

「这些确实都是数据，但能不能直接拿去训模型？ 这是另一回事。」

我们先把几个概念拆开，用大白话说清楚。

1. 数据 vs 数据集：散沙 vs 一筐挑好的菜

美国地质调查局（USGS）有个很实用的定义：USGS

数据（data）：各种零散观测、测量、文本、数字、图片……
数据集（dataset）：围绕某一个特定工作/主题，整理成一个结构化整体的数据集合；
数据库（database）：存了很多数据集的系统，可以方便访问、更新。

大白话版：

「一大堆菜」是数据；
「我专门为今晚这桌菜挑的一筐食材」是数据集；
「仓库 + 货架 + 扫码枪」是数据库。

大贵：「数据集有两大特征：有边界、有目的。 不是‘公司所有订单’都堆进去，而是为了某个任务剪了一块。」

2. 数据库：运营用的「收银系统」，不是专门给 AI 吃的

数据库干什么的？

存业务过程中的在线数据：订单、商品、库存、客户信息；
特点是：支持高并发读写、事务一致性、随时更新；OvalEdge+2BMC Software+2
本职工作：让业务系统不崩。

数据库不关心「这批数据够不够干净、够不够均衡，能不能拿来训模型」。 它只关心：这条订单插入成功没？库存减了没？

大富：「数据库是收银台，数据集是厨师已经洗好切好的那一盘盘菜。」

3. 数据仓库 / 数据湖 / 数据中台：是「大冰箱」，也不是数据集

数据仓库（Data Warehouse）：整合多个业务系统的历史数据，统一建模，用来做分析报表、BI。OvalEdge+2BMC Software+2
数据湖（Data Lake）：更多是「把各种结构化/非结构化数据先倒进来，以后慢慢用」，偏底座。BMC Software
数据中台：更多是一个组织+平台概念，把数据仓库、模型、服务包装成「公司级复用能力」。

它们解决的是：

「我们公司到底有多少数据？能不能统一口径、统一口令地查？」

但对 AI 来说，问题变成：

「在这一池子混合的水里，我专门想训一个识别‘高价值客户流失’的模型，要舀哪一瓢？这瓢水里要不要先过滤、脱敏、补标注？」

数据集就是那一瓢，甚至是那一壶。

4. 语料（corpus）：更像是「一整柜书」

在 NLP 领域，经常会看到「语料库 corpus」这个词。

有个讨论说得比较清楚：

corpus 更偏「自然出现的语言集合」，可以很大、很杂；
dataset 更偏「为某个任务整理好的数据」，有特定格式、字段。Cross Validated+1

大白话：

语料像你把几十年报纸、小说、论坛帖子都扔进一间屋子，让模型自由阅读；
数据集是你从这堆东西里，专门抽出「问答对」「翻译句对」「情感标注文本」等，标上标签。

大贵：「语料解决的是‘多’，数据集解决的是‘准’。」

5. 知识库（Knowledge Base）：是「已经做完笔记的脑子」

知识库一般有几个要素：

实体（人、公司、产品……）；
关系（谁和谁是什么关系）；
属性（时间、地点、数值）；
外加一堆可以用来推理的规则。

它是从原始数据里抽象出来的「结构化知识图谱」，更像是一个已经整理好的笔记本，可以直接拿来查「某品牌在某地区 3 年内所有产品线的上市时间」。

大富：「同一件事：

数据库记的是：每次购买发生在哪一天；
数据集整理的是：这 2 年买过 3 次以上、客单价>200 的用户样本；
知识库回答的是：哪类人更有可能成为高价值会员。」

在 AI 模型里：

数据集是「训练素材」；
知识库是「外挂智囊团」。

四、一个打工人的小故事：大富大贵一起做「情绪识别」项目

咱们讲个虚构但很现实的小故事，把区别说透。

某互联网公司要做一个「客服情绪识别」模型。

第一步：数据在哪儿？

数据库里有：
- 每一通客服通话的录音文件地址；
- 客服 ID、客户 ID、通话开始结束时间；
- 投诉标签（有没有投诉、是否升级）。
日志系统里还有：
- 客服点击界面按钮的行为；
- 话术脚本弹窗记录。

这些东西连起来，就是所谓的「有很多数据」。

第二步：怎么变成数据集？

大富接手这项目，第一个动作不是冲去卷模型，而是：

定义任务：
- 输入：一段客服通话的语音+文本；
- 输出：这通电话中客户是否处于「明显负面情绪」、哪些时刻情绪爆发；
从数据库/日志里抽样：
- 选取过去一年通话中有代表性的几万条；
- 不同客服、不同业务、不同地区都要覆盖。
标注方案：
- 通话整体情绪：正向/中性/负向；
- 时间轴上标出「情绪爆发点」；
- 请标注员听录音 + 看文本，打标签：
- 制作标注手册让不同标注员尽量一致。
数据清洗：
- 去掉录音损坏、内容缺失严重的样本；
- 平衡权重，避免全是投诉或全是闲聊。

做完这些，你才有资格说：

「我有一个客服情绪识别的数据集。」

而不是：

「我们公司有好多客服数据，不如弄个 AI 玩玩？」
大贵：「你看， 数据集跟数据的区别，就差这一整条‘用心整理’的流水线。 这条流水线不搭起来，模型就是喝浑水长大的。」

五、高质量数据集的几个关键点：ImageNet、COCO 给的 4 个教训

回头看 ImageNet、COCO 这几个标志性案例，大富总结了 4 个关键特征。

1. 有清晰的任务和边界

ImageNet：大规模物体分类 + 定位；维基百科+2ImageNet+2
COCO：复杂场景里的物体检测 + 分割 + 描述；arXiv+2加州理工学院作者+2
MNIST/CIFAR：小图分类练手。arXiv+1

一个数据集 = 一类任务的“标准训练场”。

很多企业内部所谓的「数据集」失败，是因为：

任务边界不清，要什么标签、用来干啥都说不清，最后搞成了一堆「不知道要做什么的宽表」。

2. 有可复用、可对比的公共性

ImageNet、COCO 的伟大之处还在于：

全世界都能下载、都能用同样的评测标准；ImageNet+2cocodataset.org+2
新算法出来，立刻可以在同样的跑道上比一圈。

这让 AI 从「各家写论文」变成「全球性技术竞赛」。

3. 大规模 + 高质量：数量和质量都要卷

ImageNet 砸了几百万张图的标注；History of Data Science+2ImageNet+2
COCO 光实例就 250 万个，标注过程用上了各种众包和交互式工具；arXiv+2加州理工学院作者+2
后来大家发现：COCO 里还有不少错标、漏标，于是又有人专门做 COCO-ReM 重标注，提升 mask 质量，一提升，很多检测器立刻得分更高、收敛更快。arXiv

大富：「这说明啥？ 模型早就被数据质量拖了后腿，只是没人认真去查。 你以为是你调参不行，有时候真的是菜不新鲜。」

4. 开放性：让整个领域受益，而不只是某家公司的「私房菜」

ImageNet、COCO、MNIST、CIFAR 这些数据集都公开，甚至成为教材。维基百科+4ImageNet+4arXiv+4
有研究专门追踪：开放标注数据集的出现，是深度学习从「实验室技巧」变成「全球技术生态」的重要节点。OUP Academic+1

这对企业的启发是：

你可以有自己的内部数据集，但如果行业想共同进步，一定需要一些「共同的公共训练场」。

六、站在中国企业视角：你现在有的是「数据」，还是「数据集」？

大贵常被企业领导问到一个问题：

「我们公司有几百 TB 的数据，能不能搞个大模型，顺便把智慧城市、智慧园区都做了？」

他一般会深吸一口气，憋回那句「要不先把报表跑顺再说」，改成温柔版：

大贵：「先别急着谈‘大模型’，咱先看看：你这些 TB 级的数据里，有多少已经被整理成可以直接喂给模型的数据集？」

他们俩大致会给企业画一条这样的路径——

1. 从「业务数据」到「训练数据集」，中间有四道关

目标关：
- 你要解决的是什么问题？
- 预测销量？识别瑕疵？推荐商品？反欺诈？
抽取关：
- 从所有业务数据里，把跟这个任务相关的字段挑出来；
- 时间范围、样本数量、正负样本比例都要设计。
标注关：
- 未来是否流失；
- 这笔交易是否欺诈；
- 这张图是否有瑕疵；
- 给样本打上「正确答案」：
- 很多企业就是卡在「谁来打标」和「标什么算合理」上。
清洗 & 治理关：
- 异常值、缺失、偏倚要处理；
- 隐私要脱敏；
- 法规红线要避开。

这四关过完，你才有一个像样的数据集，否则只是**「一堆暂时还不能放心喂给模型的业务残渣」**。

2. 别把数据中台当数据集：中台解决的是「在哪儿」，不是「拿来训啥」

数据中台最大的价值，是：

帮你搞清楚「全公司数据都在哪儿、什么结构」；
帮你统一口径，指标不再各说各话。

但它不自动等于「已经有了一个个高质量训练数据集」。

大富：「中台是仓库，不是菜市场。 菜是不是洗好、切好， 还是得你自己为每道菜动一次脑子。」

3. 别把知识库当数据集：一个是「笔记本」，一个是「训练营」

最后一块常被混的，是知识库。

知识库讲究的是「事实 & 关系」，用于问答、推理；
数据集则专注于某个任务的输入和输出，用来训练模型。

很多场景，两者会协同：

先用数据集训出一个粗模；
再接上知识库做「知识增强」，提高可解释性和可信度。

七、结尾：当你再说「我们有很多数据」的时候，先问自己三句话

聊了这么多，大富给这篇起了个总结式的对话。

大富：「现在谁再跟我说‘我们有很多数据’，我脑子里会自动弹出三个问题：

这些数据，平时是躺在数据库里，还是已经被整理成围绕一个任务的数据集？
这个数据集，是不是像 ImageNet 那样，有清晰边界、明确标签、可复用的评测方式？
它是一个一次性项目产物，还是会像 COCO、MNIST 那样，变成你们长期技术进步的「公共训练场」？」

大贵想了想，又补了一句：

大贵：「如果有一天，企业开会不再说 ‘我们要搞个大模型’，而是先问—— ‘我们接下来三年，要建设哪十个关键数据集？’ 那才是真正 从模型崇拜， 走向数据和场景的自觉。」

你会发现：

当年改变 AI 历史的，不只是 AlexNet、GPU，还有 ImageNet 这一桶数据；
今天的大模型狂飙背后，是无数看不见的语料清洗、标注、筛选；
未来谁能在某个垂直领域真正玩明白 AI，很大概率是那个最懂怎么建设、维护、迭代高质量数据集的人。

所以，大贵说：

模型决定了 AI 的「姿势」， 数据集决定了 AI 的「见识」。 见识不行，姿势再骚也没用。

这，大概就是李飞飞那一代人，用十几年时间帮我们上的「数据集这门课」。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-11-24，如有侵权请联系 cloudcommunity@tencent.com 删除

企业

本文分享自凯哥讲故事系列微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度