前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >吴恩达谈 MLOps:调优数据比调优模型更重要

吴恩达谈 MLOps:调优数据比调优模型更重要

作者头像
哒呵呵
发布2021-04-23 10:59:48
9970
发布2021-04-23 10:59:48
举报

3月25日,吴恩达开了一个直播讲 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI ,看完后深受启发,便随手写下一些笔记。

吴恩达的观点

一个 AI 系统包括了代码和数据两部分,用一个公式表示就是AI System = Code + Data,其中更详细的来说,代码指的模型和算法。在之前的 AI 系统设计当中,大家似乎更重视对模型的调优这一块,而忽视了对数据的调优,吴恩达认为前者是 Model-centric(以模型为中心),后者是 Data-centric(以数据为中心)。举个例子,在 arXiv 上约有99%的论文侧重于以模型为中心的观点,而只有约1%的侧重于以数据为中心的观点。

在这场讲座里,吴恩达认为在一个 AI 系统中,数据质量要比模型本身更重要,也就是Instead of emphasising more on tunning model, clean the data as much as possible.。并且从

实证经验表明,优化模型获得的收益不如优化数据集。在讲座举的钢板缺陷检测任务当中,baseline准确率为76.2%,各种换模型调参数的骚操作之后,对准确率几乎没有提升。但是对数据集的优化却将准确率提升了16.9%。其它项目的经验也证明了这点。

从以数据为中心的观点引申开来,可以认为好的数据要比大数据更重要,也就是From Big Data to Good Data。在之前使用以模型为中心的 AI 系统中,因为重点在模型的选择和参数调整上面,就不太重视数据本身,单纯只是把数据作为 AI 系统的食物(Data is Food for AI)。但是吴恩达认为把时间花费在对数据质量的优化上面,可能要比花费时间对模型进行调优,受益会更多。一个好的数据有以下的标准:

  • 定义具备一致性
  • 覆盖代表性案例
  • 能够从生产数据中获得及时反馈,以检查可能出现的数据分布的变化
  • 数量适中

如何保证数据质量是好的呢?吴恩达认为 MLOps 可以解决这个问题,而 MLOps 确保了数据质量在整个的机器学习工程中都是高质量、一致的和好的。MLOps 是另外的一个话题了,感兴趣的读者可以看看谷歌云的相关文档:https://cloud.google.com/solutions/machine-learning/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

概念

简单聊聊 Data-centric 策略和 Model-centric 策略。

Model-centric: 以调整模型代码、调优模型超参数为主的系统调优策略,在这种策略下,可以认为数据集是固定的 Data-centric: 与Model-centric相对,以调整数据集为主的系统调优策略,在这种策略下,可以认为模型是固定的(只对数据集作适应性调整)

缘由

Data-centric 策略和 Model-centric 策略之争在某种程度上是科学家和工程师之争,正如在16年发表的Data-centric vs Model-centric文章所言:

  1. 从以模型为中心的角度来看,解决方案的方法是通过模型。通常,以模型为中心的科学家偏爱某个模型家族,这很可能构成了他们在研究生院论文的主题。他们根据问题首先从模型开始,并努力通过特征工程使数据适合其模型。当现有模型无法充分解决问题时,他们将开发足以解决问题的新模型。佩德罗·多明戈斯(Pedro Domingos)的著作《主算法》是以模型为中心的思维的典型例子。这是考虑数据科学问题的合理方法。赞成这种观点的人通常在数学,统计学和计算机科学等定量领域拥有高级学位
  2. 从以数据为中心的角度来看,解决方案是查看数据。模型虽然有用,但只是对数据的直接分析的补充。如果数据质量较差,解决方案是找到一种方法来获取更好的数据,而不是找到更健壮的模型或更好的特征工程。以数据为中心的科学家的工作是用正确的分析技术来揭示这些见解。模型可以通过指出正确的方向来帮助这些科学家寻找见解。如果可能,他们将进行用户研究和测试。他们试图了解数据的来源,生成方式以及数据集中可能缺少的内容。他们构建了复杂的可视化文件以全面了解数据。支持这种观点的人来自用户体验/图形设计,新闻和商业领域。他们的资历是经过训练的直觉和经过实践检验的经验,而不是高级学位。
  3. 我认为以模型为中心的观点倾向于在数据科学中占主导地位,部分原因是在数学,统计学和计算机科学等定量领域具有高级学位的数据科学家人数众多。
我的想法

单纯从一个工程师的角度来看,以数据为中心的机器学习策略相比于以模型为中心的机器学习策略更具有可操作性,特别是对应的 MLOps,目前来看有望让 AI 系统不再飘在云上,而是变成了一个标准化的流程,不过具体的效果还是要看看实践之后,不太好下定论。

参考链接:

  1. https://www.youtube.com/watch?v=06-AZXmwHjo&ab_channel=DeepLearningAI
  2. https://zhuanlan.zhihu.com/p/363055158
  3. https://zhuanlan.zhihu.com/p/363154702
  4. https://medium.com/@derekgunthermiller/data-centric-vs-model-centric-e8f163a1d24d
  5. https://towardsdatascience.com/from-model-centric-to-data-centric-4beb8ef50475
  6. https://www.amine-hy.com/post/mlops/
  7. https://analyticsindiamag.com/big-data-to-good-data-andrew-ng-urges-ml-community-to-be-more-data-centric-and-less-model-centric/
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 吴恩达的观点
  • 概念
  • 缘由
  • 我的想法
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档