前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >深度科普:What the f,机器学习中的“ f”到底是什么

深度科普:What the f,机器学习中的“ f”到底是什么

作者头像
deephub
发布于 2020-05-14 07:31:48
发布于 2020-05-14 07:31:48
7240
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA

仔细研究一下机器学习中的“ f”一词,以及为什么不能忽略它!

我知道您很想知道这个“ f”实际上是什么。我们很快就知道了。我可以立即告诉您的一件事是,无论您对机器学习的熟悉程度如何,理解“ f”一词都会帮助您理解大多数机器学习的作用。

在此之前,让我们进行角色扮演。您是一名数据科学家,而您的初创公司已责成您与市场营销同事合作,以改善公司产品的销售。您必须就如何调整三种不同媒体(电视,广播和报纸)的广告预算向“营销人员”提供建议。

看一下过去的数据(图1),很明显,您在电视,广播和报纸等每个媒体上投放多少广告会影响产品的销售 。

图1:每种广告媒介的销售额(以千为单位)与预算(以千美元为单位)

作为数据科学家,您想了解和解释这三个因素如何共同影响销售。换句话说,我们希望根据电视,广播和报纸预算来对销售进行建模。这就是我们难以捉摸的“ f”功能。

“Mathy”的表达方式是“销售量是电视,广播和报纸预算的函数”。

“ f”是什么意思?

简而言之,您可以将f视为需要输入X并产生输出Y的事物。一个很好的类似示例是洗衣机。您将脏衣服(X)放入洗衣机(f)中,得到被洗的衣服(Y)。

在产品销售和广告媒体预算的情况下,函数f将分别以X1,X2,X3表示的电视,广播和报纸预算作为输入,将退货Y作为输出。(我们将X1,X2和X3以组合形式表示为矢量X)

剧透警报!实际上,许多机器学习只是想出一个好f,它可以获取一些输入数据并返回可靠的输出。

为什么我们要这个f?

我们需要找到一个好的f的主要原因有3个:

  • 有了一个好的f,我们可以输入所有3种媒体的预算并预测销售量。
  • 我们可以了解哪些预测因素(例如电视,广播,报纸预算)对影响Y至关重要。我们可能会发现,花钱买报纸实际上是一种浪费,因为报纸广告并不能大大提高销售量。
  • 我们也许能够理解每个预测变量如何影响Y。例如,我们可能会发现,投资电视广告的效率是投资报纸广告的5倍。
我怎么找到这个f?

在回答这个问题之前,我们需要问自己以下问题:

在广阔,华丽的宇宙中是否存在一些完美的f?

好吧,也许不是“完美”的f,但是有一个理想/最优的f。如果我们看一下图2,我们会发现一些奇怪的地方-对于X轴(报纸预算)上的某一点,在某些情况下似乎有多个对应的Y(销售)值。例如,图2中绘制的数据中,对于x = 6.4,Y轴上有两个对应的值:y = 11.9和y = 17.3。

图2:销售与报纸预算

因此,理想函数可以简单地是对应于特定x的所有y值的平均值。换句话说,对于上图:

用更多的“数学”术语,所有X上所有Y的平均值称为期望值E(Y)。因此,将任何X的所有Y值取平均值的过程就是我们的“理想”函数。我们的理想f可以用以下方式表示:

(不必担心Y | X…。这只是“数学”的说法,“ Y等于X等于某个特定值x”)

好的...。但是为什么我们需要机器学习?

可悲的是,因为我们生活在“现实世界”中。

在“现实世界”中,我们不能使用上面讨论的平均思想可靠地估计Y所需的所有数据。即使对于销售广告数据,您也可以看到在图2中,对于x = 77.5,x = 95,x = 110等,没有相应的Y值。

解决数据丢失问题的一种有效方法是使用邻里关系。

这意味着,我们可以取在x = 77.5相邻点出现的所有Y值的平均值,而不是严格地取x的平均值Y = 77.5。因此,可能从x = 75取到x = 80(参见图3中的蓝色垂直线)。

图3:对于f(77.5),我们取所有Y值的平均值,取75≥x≤80

我们的定义和表示法有一些变化,以反映以下思想:我们不再局限于在给定点X = x上精确地出现的Y值,而是查看在X = x附近的Y值。

这种方法有两个主要问题:

  • 当除了报纸预算外还有多个预测变量(例如:电视,广播,Facebook广告,Google广告…)。在这种情况下,问题扩展到多个维度(不仅限于x和y轴),并且越来越难以定义我们宝贵的“邻居”。(此问题的名称很糟糕:维度诅咒)
  • 当相邻区域中没有数据时会发生什么?例如,在图3中,没有从x = 115到x = 145以及以后的数据。
机器学习助您一臂之力!

为了不使f受上述两个问题的约束,我们转向机器学习来估计f。虽然有各种各样的机器学习模型可供选择,但让我们考虑一个简单而有效的模型-线性回归模型。在线性回归模型中,将输入X1(电视预算),X2(广播预算),X3(报纸预算)分别乘以w1,w2和w3,然后相加得出Y。

在上式中,w0,w1,w2,w3是参数,其值是通过训练模型并将其拟合到数据上而获知的。换句话说,这些参数的值通过“查看”数据并反复进行猜测而改变,这些猜测随着时间的推移会越来越好,直到我们获得足够好的f。

结论

估计f时应选择哪种模型,如何执行程序以及如何判断f的“足够好”是机器学习从业人员在处理特定问题时进行反复调查的非平凡问题。机器学习从业人员通常依靠经验,领域知识和经验证据来尝试回答这些问题。尽管如此,无论问题的背景和性质如何,找到良好的f都是使用机器学习进行预测,推理和解决问题的基础。

参考/灵感
  • Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.
  • Hastie, Trevor, Robert Tibshirani, and J. H Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. New York: Springer, 2009.

作者:Aishwarya Prabhat

deephub翻译组:孟翔杰

DeepHub

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深入探索机器学习中的线性回归模型:原理、应用与未来展望
在当今这个数据驱动的时代,机器学习技术已经渗透到我们生活的方方面面。作为机器学习领域中最基础、最经典的算法之一,线性回归模型凭借其简单易懂、计算效率高和可解释性强的特点,在预测、趋势分析等领域发挥着重要作用。本文将详细探讨线性回归模型的原理、应用实例、优缺点以及未来发展趋势。
破晓的历程
2024/06/24
5360
深入探索机器学习中的线性回归模型:原理、应用与未来展望
用scikit-learn开始机器学习
原文:https://www.raywenderlich.com/174-beginning-machine-learning-with-scikit-learn 作者: Mikael Konutgan 2018年2月12日·中级·文章·15分钟
iOSDevLog
2018/10/22
1.7K0
用scikit-learn开始机器学习
【机器学习 | 基于实例学习】经典算法—KDD算法详解
【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一) 作者: 计算机魔术师 版本: 1.0 ( 2023.8.27 )
计算机魔术师
2023/12/18
4110
【机器学习 | 基于实例学习】经典算法—KDD算法详解
AI 技术讲座精选:数据科学家线性规划入门指南
前 言 生活之道在于优化。每个人拥有的资源和时间都是有限的,我们都想充分利用它们。从有效地利用个人时间到解决公司的供应链问题——处处都有用到优化。 优化还是一个有趣的课题——它解决的问题初看十分简单,但是解决起来却十分复杂。例如,兄弟姐妹分享一块巧克力就是一个简单的优化问题。我们在解决这个问题时不会想到使用数学。另一方面,为电商制定库存和仓储策略可能会十分复杂。数百万个库存单位在不同地区有不同的需求量,而且配送所需的的时间和资源有限——你明白我意思吧! 线性规划(LP)是实现优化的最简途径之一。它通过作出几
AI科技大本营
2018/04/26
1.4K0
AI 技术讲座精选:数据科学家线性规划入门指南
Python中线性回归的完整指南
本文试图成为理解和执行线性回归所需的参考。虽然算法很简单,但只有少数人真正理解了基本原理。
代码医生工作室
2019/06/21
4.7K0
Python中线性回归的完整指南
机器学习从0入门-线性回归
机器学习有许多不同的算法,每个算法都有其特定的应用场景和优缺点。然而,最简单的机器学习算法可能是线性回归。
皮大大
2023/08/25
5130
机器学习从0入门-线性回归
机器学习模型的特性
机器学习模型中有许多种不同方法可以用来解决分类和回归问题。对同一个问题来说,这些不同模型都可以被当成解决问题的黑箱来看待。然而,每种模型都源自于不同的算法,在不同的数据集上的表现也各不相同。最好的方法是使用交叉比对的方式来决定在待测试数据上哪种模型的效果最好。 在此我尝试对每种模型的算法模式进行简要总结,希望能帮助你找着适合特定问题的解决方法。 1 基于决策树的方法 基本的学习方法是依据最有区分度的划分条件,递归地将训练数据划分成具有同质成员的桶块。“同质性”的衡量标准是基于输出标签而定
机器学习AI算法工程
2018/03/12
9230
【机器学习】深入探索机器学习:线性回归算法的原理与应用
线性回归是一种简单但功能强大的预测建模技术。它的核心思想是通过拟合一条直线(在二维空间中)或一个超平面(在多维空间中)来最小化预测值与实际值之间的误差。以下是线性回归算法原理的详细解释:
Eternity._
2024/06/14
6000
【机器学习】深入探索机器学习:线性回归算法的原理与应用
多元线性回归的模型解释、假设检验、特征选择
线性回归是最流行和讨论最多的模型之一,它无疑是深入机器学习(ML)的入门之路。这种简单、直接的建模方法值得学习,这是进入ML的第一步。
deephub
2020/05/28
2.2K0
机器学习之预测分析模型
介绍 预测分析是基于以前收集的数据来预测未来的结果。它包括两个阶段: 训练阶段:从训练数据中学习一个模型。 预测阶段:使用模型预测未知或未来的结果。 预测模型 我们可以选择许多模型,每个模型都基于一些与数据底层分布有关的不同假设。因此,我们对所要讨论中的两个一般问题感兴趣:1.分类 - 关于预测类别(一个离散的值,有限的,没有排序的),以及2.回归-关于预测一些数值的量(一个连续且有序的无限值)。 对于分类问题,我们使用“虹膜”数据集,并从其萼片和花瓣的“宽度”和“长度”测量中预测其“物种”。以下是
用户1263954
2018/01/30
8.6K0
机器学习之预测分析模型
机器学习中的线性回归
线性回归是机器学习领域中最简单而有效的模型之一。它用于建立自变量(输入)和因变量(输出)之间的线性关系。在实际应用中,线性回归广泛用于预测、分析和建模。让我们深入了解线性回归的基本原理和应用。
GeekLiHua
2025/01/21
1230
【机器学习】——【线性回归模型】——详细【学习路线】
线性回归是最基本的机器学习模型之一,广泛应用于各种科学研究和工程领域。它通过找到数据之间的线性关系来进行预测和解释。本教程将详细介绍线性回归的理论基础、数学原理、实现方法及应用案例,帮助读者全面掌握线性回归模型。
小李很执着
2024/06/19
2960
【机器学习】——【线性回归模型】——详细【学习路线】
5W字入门干货:手把手教你用机器学习做金融交易(上)
作者:江海 高能物理专业博士 量子位 已获授权编辑发布 这是一篇长达5W字的干货。 作者用诙谐的笔触讲述了用机器学习入门金融领域的正确姿势,基本涵盖了基础机器学习的方法及具体应用,还有部分期权的科普。文风清奇,也哲思满满。 原文标题为《教你Machine Learning玩转金融入门notes》,内容分为三部分: 一. 金融和统计背景介绍 二. Machine Learning各个方法和在trading上的应用 2.1 Supervised Learning: Regressions 2.2 Non-Par
量子位
2018/03/29
9380
5W字入门干货:手把手教你用机器学习做金融交易(上)
机器学习选股模型的可解释性分析
作者:Yimou Li, DaviD TurkingTon, anD aLireza YazDani
量化投资与机器学习微信公众号
2021/02/07
1.6K1
“电视、新闻、报纸”-简单机器学习预测未来销售额
机器学习是python使用的一大方向,本文以简单的三种不同销售方式对最终销额的影响为例子,采用MSE均方差进行分析。
用户6719124
2019/11/17
7630
机器学习-简单线性回归教程
线性回归(Linear regression)虽然是一种非常简单的方法,但在很多情况下已被证明非常有用。
双愚
2018/02/08
1.9K0
机器学习-简单线性回归教程
[机器学习Lesson4]多元线性回归
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
mantou
2018/04/21
2K3
[机器学习Lesson4]多元线性回归
由浅入深了解机器学习和GPT原理
我不是一个机器学习专家,本来是一名软件工程师,与人工智能的互动很少。我一直渴望深入了解机器学习,但一直没有找到适合自己的入门方式。这就是为什么,当谷歌在2015年11月开源TensorFlow时,我非常兴奋,知道是时候开始学习之旅了。不想过于夸张,但对我来说,这就像是普罗米修斯从机器学习的奥林匹斯山上将火种赠予人类。在我脑海中,整个大数据领域,以及像Hadoop这样的技术,都得到了极大的加速,当谷歌研究人员发布他们的Map Reduce论文时。这一次不仅是论文,而是实际的软件,是他们在多年的发展之后所使用的内部工具。
腾讯技术工程官方号
2023/07/15
4320
由浅入深了解机器学习和GPT原理
【深度学习—线性回归预测销售额(含源码,CSV文件)】
进行程序训练之前,需已经成功安装好深度学习环境 若没有安装环境,可以参考:深度学习环境安装教程,进行环境安装。
magize
2023/07/11
1.3K1
【深度学习—线性回归预测销售额(含源码,CSV文件)】
推荐算法背后的机器学习技术
机器学习是一种利用统计和其他数学理论给予计算机学习能力的方法。机器学习和统计其实都有相同的目标:从数据中学习知识。但是具体的手段和理念有所不同。机器学习是计算机科学的一个分支,侧重的是从数据中建立有机的系统,而不是用目的很明显的规则去编程。而统计学是数学的一个分支,侧重的是用数学公式建立变量之间的联系。近年来,随着计算机硬件成本的不断降低和数据量的极大增加,数据科学家得以充分利用机器学习手段来分析和挖掘数据。另一方面,统计建模技术则早在计算机问世前就已经存在。
张小磊
2022/10/31
5520
推荐阅读
相关推荐
深入探索机器学习中的线性回归模型:原理、应用与未来展望
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档