前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不存在所谓的机器学习平台!

不存在所谓的机器学习平台!

作者头像
物流IT圈
发布2020-02-10 11:22:00
1.1K0
发布2020-02-10 11:22:00
举报
文章被收录于专栏:物流IT圈物流IT圈物流IT圈

作者是AI研究咨询公司Cognilytica的执行合伙人兼首席分析师。

在过去这几年,你可能注意到了供应商们以越来越快的步伐推出服务于AI生态系统的“平台”,即满足数据科学和机器学习的需求。“数据科学平台”和“机器学习平台”在竞相吸引数据科学家、机器学习项目经理以及管理AI项目/计划的其他人士的目光和钱袋。如果你是主要的技术供应商,但在AI领域却没有大有作为,可能会迅速沦为边缘化。但是这些平台究竟是什么?为什么上演争抢市场份额这一幕?

说白了,机器学习和数据科学项目与平常的应用软件或硬件开发项目毫无相似之处。过去,软硬件开发旨在专注于系统或应用软件的功能,而数据科学和机器学习项目实际上旨在管理数据,不断丰富从数据中学到的知识,并基于不断迭代来改进数据模型。从以数据为中心的角度来看,典型的开发流程和平台根本不管用。

由于数据科学家和机器学习项目经理依靠平台为企业开发、运行、操作和管理数据模型,大大小小的技术供应商专注于开发平台也就不足为奇。对于这些供应商而言,未来的机器学习平台就像过去和现在的操作系统、云环境或移动开发平台。如果你能主导数据科学/机器学习平台的市场份额,在未来几十年就会收获丰厚的回报。因而,角逐这个领域的每家公司都在竞相分得一杯羹。

然而,机器学习平台是什么样子的?它与数据科学平台有何相同或不同?机器学习平台的核心要求是什么?它们与更普通的数据科学平台有何不同?这些平台的用户是谁,他们真正想要什么?不妨深入研究一下。

数据科学平台是什么?

数据科学家的任务是从海量数据中整理有用的信息,并将业务和运营信息需求转化为数据和数学语言。数据科学家需要精通统计学、概率、数学和算法,它们有助于从大量信息中收集有用的信息。数据科学家创建数据假设、运行数据测试和分析,然后转换分析结果,以便企业中的其他人查看和理解。因此,纯粹的数据科学平台要满足以下需求:帮助制作数据模型、确定最适合假设的信息、测试假设、促进数据科学家团队之间的协作,以及信息不断变化时有助于管理和完善数据模型。

此外,数据科学家的工作重点并不是放在以代码为中心的集成开发环境(IDE),而是放在笔记本(notebook)。笔记本最初因面向学术界且以数学为中心的平台(比如Mathematica和Matlab)而普及开来,如今在Python、R和SAS等社区非常流行,用于记录数据研究,并让笔记本可以在不同的源数据上运行,以此简化结果的可重复性。最好的笔记本是共享的协作环境,数据科学家小组可以一起工作,并针对不断变化的数据集迭代模型。虽然笔记本并不提供开发代码的出色环境,但提供了协作处理、探究和可视化数据的出色环境。的确,最好的笔记本被数据科学家用来快速探究庞大数据集,假设对干净数据拥有足够的访问权。

然而,如果访问不了大量的干净数据,数据科学家就无法有效地开展工作。提取、清理和移动数据其实不是数据科学家的职责,而是数据工程师的职责。数据工程师的任务就是从众多系统获取结构化和非结构化格式的数据,这些数据通常不“干净”,存在缺少字段、数据类型不匹配以及其他与数据有关的问题。这样一来,数据工程师成了设计、构建和安排数据的工程师。优秀的数据科学平台还使数据科学家能够随着需求增长轻松享用计算能力。平台不是将数据集复制到本地计算机上来处理,而是让数据科学家轻松访问计算能力和数据集,尽量减少麻烦。数据科学平台也面临着提供这些数据工程功能的需求。正因为如此,一个实用的数据科学平台将具有数据科学功能的要素和必要的数据工程功能。

机器学习平台是什么?

前面介绍了数据科学平台,甚至都没有提到过AI或机器学习。当然,两者重叠之处在于使用数据科学技术和机器学习算法,将其运用于庞大数据集以开发机器学习模型。数据科学家每天使用的工具与面向机器学习的科学家和工程师使用的工具有很大的重叠。然而,这些工具并不相同,因为机器学习科学家和工程师的需求有别于更一般的数据科学家和工程师的需求。

负责管理机器学习项目的人员不仅需要关注笔记本和生态系统,与其他人进行协同管理,还需要访问众多针对机器学习的算法、库和基础架构,以便针对变化中的庞大数据集训练这些算法。理想的机器学习平台可帮助机器学习工程师、数据科学家和工程师发现哪些机器学习方法最有效,如何调整超参数,如何在本地或基于云的CPU、GPU及/或TPU集群上部署计算密集型机器学习训练,并提供用于管理和监测无监督训练模式和监督训练模式的生态系统。

很显然,需要一种协作式、交互式、可视化的系统以便使用数据科学平台开发和管理机器学习模型,但对于机器学习平台而言,这还不够。如上所述,要使机器学习系统切实有效,比较棘手的一方面在于超参数的设置和调整。

机器学习模型的整个概念是,它需要从数据中学习各种参数。基本上,机器学习实际学习的是数据参数,并将新数据拟合到这个学习的模型。超参数是可以配置的数据值,它们在训练无法从数据中学习的机器学习模型之前加以设置。这些超参数表明各种因素,比如复杂性和学习速度等。不同的机器学习算法需要不同的超参数,而一些根本不需要任何超参数。机器学习平台有助于超参数的发现、设置和管理,此外还包括不是针对机器学习的数据科学平台所不能提供的算法选择和比较。

大数据、机器学习工程、模型管理和实施的不同需求

归根结底,机器学习项目经理只是想要可提高工作效率的工具。但是并非所有机器学习项目都一样。一些专注于会话系统,另一些专注于识别或预测分析,另一些专注于强化学习或自主系统。此外,可以以各种不同方式部署(或实施)这些模型。一些模型可能驻留在云或本地服务器中,另一些模型部署到边缘设备或离线批处理模式。数据科学家、工程师和机器学习开发人员之间在机器学习应用、部署和需求方面存在着这些差异,因此单一机器学习平台的概念不是特别可行。这将是“杂而不精”的情况。

因此,我们看到出现了四种不同的平台。一种专注于数据科学家和模型构建者的需求,另一种专注于大数据管理和数据工程,第三种专注于模型“脚手架”和构建与模型交互的系统,第四种专注于管理模型生命周期:“机器学习运维”(ML Ops)。赢家将专注于为这每个部分构建功能。

AI的四种环境

数据科学平台竞争的赢家将是简化机器学习模型创建、训练和迭代的供应商。它们将使公司可以从笨拙的非智能系统快捷轻松地迁移到利用机器学习功能解决以前机器无法解决的问题的系统。无法支持机器学习功能的数据科学平台将改而处理非机器学习数据科学任务。同样,天生支持数据工程功能的那些大数据平台也将成为赢家。同样,应用软件开发工具将需要将机器学习模型当作其生命周期的最重要参与者,就跟其他任何形式的技术资产一样。最后,机器学习运维这个领域刚刚出现,无疑会在未来几年成为大新闻。

供应商告诉你它拥有AI或机器学习平台时,正确的回答是“哪一种?”。如你所见,并非只有单一的机器学习平台,而是有满足不同需求的不同平台。确保你没有被一些供应商的营销噱头忽悠了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 驼马精英 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档