首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1933787
阅读量
188
订阅数
多元线性回归代码实现(matlab和python)
来源:调度与优化算法的集结地本文约1000字,建议阅读5分钟原理: 表面上理解很简单,只要学过高中数学就没问题。 多元线性回归是一种建立多个自变量和一个因变量之间关系的模型。其原理基于多元线性回归方程,该方程可以描述因变量与多个自变量之间的线性关系。多元线性回归方程通常采用以下形式: Y = β0 + β1X1 + β2X2 + ... + βpXp + ε 其中,Y 是因变量,X1、X2、...、Xp 是自变量,β0、β1、β2、...、βp 是回归系数,ε 是误差项。回归系数是多元线性回归模型的核心参数
数据派THU
2023-05-18
6520
使用Statsmodel进行假设检验和线性回归
来源:DeepHub IMBA本文约1500字,建议阅读5分钟在本文中,我们将介绍 statsmodel 库的基础知识、如何使用它以及它的好处。 如果你使用 Python 处理数据,你可能听说过 statsmodel 库。Statsmodels 是一个 Python 模块,它提供各种统计模型和函数来探索、分析和可视化数据。该库广泛用于学术研究、金融和数据科学。在本文中,我们将介绍 statsmodel 库的基础知识、如何使用它以及它的好处。 什么是 Statsmodel 库? Statsmodels
数据派THU
2023-05-11
4400
详解:7大经典回归模型
来源:csdn 深度学习爱好者本文约2900字,建议阅读5分钟本文给大家介绍机器学习建模中7大经典的回归分析模型。 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细
数据派THU
2023-04-18
7030
终于有人把线性回归讲明白了
来源:大数据DT 本文约1900字,建议阅读5分钟 本文将介绍什么是回归问题、解决回归问题的基本思路步骤和用机器学习模型解决回归问题的基本原理,以及如何用线性模型解决回归问题。 00 线性回归:“钢铁直男”解决回归问题的正确方法 本文将介绍机器学习算法,我们选择从线性回归(Linear Regression)开始。 许多机器学习教材习惯一上来就深入算法的细节,这当然也有好处,但学习一门之前不大接触的新技术时,我更倾向于遵循学习思维三部曲的节奏:是什么(What)、为什么(Why)和怎么做(How)。如果我
数据派THU
2023-03-29
2570
机器学习回归模型相关重要知识点总结
来源:机器学习研习院本文约3200字,建议阅读10+分钟本文为你总结10个重要的回归问题和5个重要的回归问题评价指标。 回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。 一、线性回归的假设是什么? 线性回归有四个假设: 线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在相同方向上改变y值。 独立性:特征应该相互独立,这意味着最小的多重共线性。 正态性:残差应该是正态分布的。 同方差性:回归线周围数据点的
数据派THU
2022-09-14
1.2K0
广义线性模型(GLM)及其应用
来源:Deephub Imba本文约1800字,建议阅读5分钟广义线性模型是线性模型的扩展,通过联系函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。 广义线性模型[generalize linear model(GLM)]是线性模型的扩展,通过联系函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。它的特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构。是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的一种发展。 在广义线性模型的理论框架中,则假设目
数据派THU
2022-09-07
1.3K0
为什么回归问题用 MSE?
来源:机器学习算法那些事本文约1700字,建议阅读9分钟很多时候,一些基础知识可能会影响你对一个模型结果表现的理解。 最近在看李沐的实用机器学习课程,讲到regression问题的loss的时候有弹幕问:“为什么要平方?” 如果是几年前学生问我这个问题,我会回答:“因为做回归的时候的我们的残差有正有负,取个平方求和以后可以很简单的衡量模型的好坏。同时因为平方后容易求导数,比取绝对值还要分情况讨论好用。” 但是经过了几年的科研以后,我觉得这样的回答太过于经验性了,一定会有什么更有道理的解释,于是在知乎上搜了
数据派THU
2022-08-29
3820
统计学和机器学习到底有什么区别?
来源:不止数据分析本文约5800字,建议阅读10+分钟没有统计学,机器学习根本没法存在,但由于当代信息爆炸,人类能接触到的大量数据,机器学习是非常有用的。 统计学和机器学习之间的界定一直很模糊。 无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。 而机器学习支撑的人工智能也被称为“统计学的外延”。 例如,诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学,只不过用了一个很华丽的辞藻。 萨金特在世界科技创新论坛上表示,人工智能其实就是统计学 当然也有一些不同的声音。但是这一观点的正反双方在争
数据派THU
2022-07-06
2400
数据科学的面试的一些基本问题总结
来源:Deephub Imba本文约5000字,建议阅读10分钟本文将介绍如何为成功的面试做准备的,以及可以帮助我们面试的一些资源。 在这篇文章中,将介绍如何为成功的面试做准备的,以及可以帮助我们面试的一些资源。 代码开发基础 如果你是数据科学家或软件开发人员,那么应该已经知道一些 Python 和 SQL 的基本知识,这对数据科学家的面试已经足够了,因为大多数的公司基本上是这样的——但是,在你的简历中加入 Spark 是一个很好的加分项。 对于 SQL,你应该知道一些最简单的操作,例如: 从表中选择
数据派THU
2022-06-29
6500
吴恩达:机器学习的六个核心算法
来源:AI科技评论本文约7100字,建议阅读13分钟本文总结了机器学习领域多个基础算法的历史溯源。 最近,吴恩达在其创办的人工智能周讯《The Batch》上更新了一篇博文,总结了机器学习领域多个基础算法的历史溯源。 文章开头,吴恩达回忆他的研究历程中曾有一次抉择: 多年前,在一次项目中,选择算法时,他不得不在神经网络与决策树学习算法之间做选择。考虑到计算预算,他最终选择了神经网络,在很长的一段时间内弃用增强决策树。 这是一个错误的决定,「幸好我的团队很快修改了我的选择,项目才成功。」吴恩达谈道。 他由此
数据派THU
2022-06-20
2370
【2022新书】数据科学基础数学,带你用基本线性代数,概率和统计来掌握你的数据
来源:专知本文为书籍介绍,建议阅读6分钟本书指导您学习微积分、概率、线性代数和统计学等领域以及应用。 掌握数据科学、机器学习和统计学方面的数学知识。在这本书中,作者Thomas Nield将指导您学习微积分、概率、线性代数和统计学等领域,以及如何将它们应用到线性回归、逻辑回归和神经网络等技术中。在此过程中,您还将获得关于数据科学状态的实际见解,以及如何利用这些见解来最大化您的职业生涯。 https://www.oreilly.com/library/view/essential-math-for/9781
数据派THU
2022-06-14
3150
为什么回归问题用MSE?
来源:数据studio、深度学习爱好者本文约1600字,建议阅读6分钟一些基础知识可能会影响你对一个模型结果表现的理解。 最近在看李沐的实用机器学习课程,讲到regression问题的loss的时候有弹幕问:“为什么要平方?” 如果是几年前学生问我这个问题,我会回答:“因为做回归的时候的我们的残差有正有负,取个平方求和以后可以很简单的衡量模型的好坏。同时因为平方后容易求导数,比取绝对值还要分情况讨论好用。” 但是经过了几年的科研以后,我觉得这样的回答太过于经验性了,一定会有什么更有道理的解释,于是在知乎上
数据派THU
2022-04-26
5720
机器学习理论基础到底有多可靠?
来源:深度学习与图网络本文约4600字,建议阅读5分钟本文介绍了机器学习理论的重要性。 知其然,知其所以然。 机器学习领域近年的发展非常迅速,然而我们对机器学习理论的理解还很有限,有些模型的实验效果甚至超出了我们对基础理论的理解。 目前,领域内越来越多的研究者开始重视和反思这个问题。近日,一位名为 Aidan Cooper 的数据科学家撰写了一篇博客,梳理了模型的实验结果和基础理论之间的关系。以下是博客原文: 机器学习领域中,有些模型非常有效,但我们并不能完全确定其原因。相反,一些相对容易理解的研究领域则在
数据派THU
2022-03-08
4300
【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题
来源:专知本文约1200字,建议阅读5分钟本文内容关于使用回归来解决比较、估计、预测和因果推理等实际问题。 大多数有关回归的教科书侧重于理论和最简单的例子。然而,真正的统计问题是复杂而微妙的。这不是一本关于回归理论的书。它是关于使用回归来解决比较、估计、预测和因果推理等实际问题。与其他书籍不同,它侧重于实际问题,如样本量、缺失数据以及广泛的目标和技术。它直接进入你可以立即使用的方法和计算机代码。作者亲身经历的真实例子和故事,展示了回归的作用及其局限性,并为理解实验和观察研究的假设和实施方法提供了实用建议。
数据派THU
2022-03-04
2970
【经典书】概率与统计导论(附pdf)
这本书的第三版继续演示如何应用概率论,以获得洞察到真实的日常统计问题和情况。这种方法最终导致了对统计程序和策略的直观理解,最常用的是实践工程师和科学家。这本书是为统计学或概率和统计的入门课程而写的,为工程、计算机科学、数学、统计学和自然科学的学生而写。因此,它假定你有初等微积分知识。
数据派THU
2021-10-19
1.1K0
独家 | 教你用Python来计算偏差-方差权衡
本文为你讲解模型偏差、方差和偏差-方差权衡的定义及联系,并教你用Python来计算。
数据派THU
2020-10-26
1.2K0
独家 | 浅析机器学习中的自由度
自由度是统计和工程学的重要概念,它通常用于总结在人们在计算样本统计或统计假设检验统计量时所使用的数据量。在机器学习中,自由度可以指模型中的参数数量,例如线性回归模型中的系数数量或深度学习神经网络中的权重数量。
数据派THU
2020-05-26
9840
独家 | 手把手教你如何使用Flask轻松部署机器学习模型(附代码&链接)
当数据科学或者机器学习工程师使用Scikit-learn、Tensorflow、Keras 、PyTorch等框架部署机器学习模型时,最终的目的都是使其投入生产。通常,我们在做机器学习项目的过程中,将注意力集中在数据分析,特征工程,调整参数等方面。但是,我们往往会忘记主要目标,即从模型预测结果中获得实际的价值。
数据派THU
2019-11-01
8660
独家 | 为你介绍7种流行的线性回归收缩与选择方法(附代码)
本文讨论了几种子集和收缩方法:最佳子集回归, 岭回归, LASSO, 弹性网, 最小角度回归, 主成分回归和偏最小二乘。
数据派THU
2019-05-16
1.4K0
独家 | 一文读懂统计学与机器学习的本质区别(附案例)
两者之间并不一样。如果机器学习仅仅是统计学基础上的锦上添花,那么其结构只能像沙堡一样脆弱。
数据派THU
2019-05-16
4760
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档