首页
学习
活动
专区
工具
TVP
发布

AI机器学习与深度学习算法

专栏作者
223
文章
406471
阅读量
53
订阅数
学习回归 1-4 多项式回归
是什么样的函数,不过对于要解决的问题,找到合适的表达式之前,需要不断地去尝试。更高次数的曲线能够更好的拟合所有数据点,甚至能够完全拟合所有的数据点,但是数据点中包含很多的噪声。
触摸壹缕阳光
2022-11-08
4490
学习回归 1-1 设置问题和定义模型
现在有一些关于广告费和点击量的数据,将广告费作为横坐标轴,点击量作为纵坐标轴,其对应关系如下所示。
触摸壹缕阳光
2022-11-08
2090
从零开始实现数据预处理流程
众所周知,训练机器学习模型的目标是提高模型的泛化能力,通常使用测试集误差来近似模型在现实世界的泛化误差。为了能用机器学习来解决现实世界的问题,我们通常需要对从现实世界中获取的数据进行预处理操作。本文需要使用两个软件包:
触摸壹缕阳光
2021-06-15
1.2K0
机器学习入门 13-5 随机森林和Extra-Trees
前面几个小节介绍了 Bagging 集成学习方法。简单来说,Bagging 方式是通过在样本以及特征空间上随机选取样本以及特征的方式来创建诸多差异性的子模型,然后将这些子模型集成在一起。使用 sklearn 实现 Bagging 这种集成学习,使用的基本分类器都是决策树,这种基本分类器使用决策树的集成学习通常被称为随机森林。 随机森林中的每一棵树都是通过随机的方式来训练生成的,因此具有随机性,这么多树放在一起,就形成了一个森林。前面实现的 Bagging Classifier,无论是 random subspaces classifier 还是 random patches classifier,指定的 base_estimator 参数都是 DecisionTreeClassifier(sklearn 封装的决策树类),因此都可以叫做随机森林。
触摸壹缕阳光
2021-05-11
4.9K0
机器学习入门 13-4 OOB和关于Bagging的更多讨论
上一小节介绍了 Bagging 这种集成学习方式,我们不再使用不同的机器学习算法进行集成,而是使用同一种机器学习算法,让这个算法在不同的样本上进行训练,而这些不同的样本是通过对全部样本数据有放回取样得到的,这些在不同样本上训练的子模型有一定的差异性。
触摸壹缕阳光
2021-05-11
6000
机器学习入门 13-3 Bagging and Pasting
前两个小节介绍了集成学习,集成学习的思路就是让多个机器学习算法在同一个问题上分别进行学习并预测,最终根据投票 "少数服从多数" 的原则作出最终预测。根据统计学中的大数定理可知,如果想要通过集成学习得到更可信、更好的结果,就需要上千上万甚至更多的机器学习模型(投票者)。
触摸壹缕阳光
2021-04-07
7540
机器学习入门 12-5 CART与决策树中的超参数
前面介绍的决策树通常还有一个名字,叫做 CART(读音与cut相近)。CART 是 Classification And Regression Tree 的首字母缩写,通过 Classification And Regression Tree 的字面意思可以看出,CART 这种决策树既能够解决分类问题(Classification)也能够解决回归问题(Regression)。每个节点根据某种衡量系统不确定性的指标(信息熵或基尼系数)来找到某个合适的维度 d 以及维度 d 上的阈值 v,根据 d 和 v 对当前节点中的数据进行二分,通过这种方式得到的决策树一定是一颗二叉树,这也是 CART 这种决策树的特点。
触摸壹缕阳光
2021-01-28
1.7K0
机器学习入门 12-3 使用信息熵寻找最优划分
在上一小节中介绍了一个新指标:信息熵。通过信息熵可以计算当前数据的不确定度。构建决策树时,初始状态下,根节点拥有全部的数据集。在根节点的基础上,根据划分后左右两个节点中的数据计算得到的信息熵最低为指标,找到一个合适的维度以及在这个维度上的一个阈值,然后根据找到的维度以及对应的阈值将在根节点中的全部数据集划分成两个部分,两个部分的数据分别对应两个不同的节点。对于两个新节点,再以同样的方式分别对两个新节点进行同样的划分,这个过程递归下去就形成了决策树。本小节主要通过代码来模拟使用信息熵作为指标的划分方式。
触摸壹缕阳光
2021-01-18
1.3K0
机器学习入门 12-1 什么是决策树?
决策树的思想在我们的日常生活中非常常见,甚至在很多时候我们会不自觉的使用这种思路来进行一些判断。
触摸壹缕阳光
2020-11-05
6010
机器学习入门 11-9 SVM思想解决回归问题
本系列是《玩转机器学习教程》一个整理的视频笔记。本小节简单介绍如何使用支撑向量机的思想来解决回归问题,最后通过sklearn封装好的LinearSVR类实现波士顿房价的预测。
触摸壹缕阳光
2020-10-26
1K0
机器学习入门 11-6 到底什么是核函数
本系列是《玩转机器学习教程》一个整理的视频笔记。在上一小节具体的编程实践中看到,在SVM算法中有一个非常重要的概念叫做核函数。本小节以简单的多项式核函数为例介绍什么是核函数。
触摸壹缕阳光
2020-08-10
1.4K0
机器学习入门 11-4 scikit-learn中的SVM
本系列是《玩转机器学习教程》一个整理的视频笔记。本小节主要介绍如何通过sklearn封装的SVM算法实现分类任务,并且设置不同的超参数C的值,通过绘图的方式直观的感受不同的超参数C对模型的影响。
触摸壹缕阳光
2020-07-08
9120
机器学习入门 11-5 SVM中使用多项式特征和核函数
本系列是《玩转机器学习教程》一个整理的视频笔记。本小节主要介绍两种能够使SVM算法解决非线性数据集的方法,使用多项式特征以及使用多项式核函数。
触摸壹缕阳光
2020-07-08
3K0
机器学习入门 11-3 Soft Margin SVM
本系列是《玩转机器学习教程》一个整理的视频笔记。前面两个小节具体介绍了Hard Margin SVM算法的思想,并将这种思想转换为数学中的最优化问题。这一小节:
触摸壹缕阳光
2020-07-02
8110
一文搞懂简单线性回归
线性回归是研究因变量y和自变量x之间数量上相互依存的线性关系。在机器学习中自变量x为样本特征,因变量y为目标值。比如在预测房价的机器学习任务中,每个样本x表示与房价有关的各种特征,而y为相对应的房屋价格。根据每个样本中特征的个数分为:
触摸壹缕阳光
2020-07-02
7050
资源|Pandas科学计算速查表
Python如此流行的原因之一是由于有很多功能强大开源库,这些库能够方便我们轻松完成各式各样的工作。 本次带来的是科学计算Pandas的速查表。
触摸壹缕阳光
2020-02-26
4530
资源|Scikit-Learn框架速查表
Scikit-Learn是开源的Python机器学习库,有统一的编程规范,可以非常简单方便的实现机器学习、预处理、交叉验证以及可视化算法。不仅可以作为机器学习的主力框架,同时也可以为其他如Tensorflow2.X以及Keras等深度学习库作为辅助工具(实现预处理、交叉验证……)。
触摸壹缕阳光
2020-02-17
4980
机器学习入门 8-7 偏差方差平衡
本系列是《玩转机器学习教程》一个整理的视频笔记。本小节主要介绍什么是偏差和方差,并从偏差和方差这种更高更全面的视角来探讨模型过拟合和欠拟合,最后提出在算法层面上主要解决高方差,并提出五条解决高方差的手段。
触摸壹缕阳光
2020-01-14
8620
机器学习入门 8-4 为什么要训练数据集与测试数据集
本系列是《玩转机器学习教程》一个整理的视频笔记。这一小节,主要介绍通过测试数据集来衡量模型的泛化能力,并得出训练数据集和测试数据集关于模型复杂度与模型精确度之间的趋势,最后通过一个简单的小例子来说明过拟合和欠拟合以加深理解。
触摸壹缕阳光
2019-12-26
2.8K0
机器学习入门 8-1 什么是多项式回归
本系列是《玩转机器学习教程》一个整理的视频笔记。本章主要介绍多项式回归的相关知识,并通过多项式回归引入模型泛化的相关概念。本小节主要介绍解决非线性回归问题非常简单的改进方式多项式回归,并通过编程实践来看看如何实现多项式回归。
触摸壹缕阳光
2019-12-04
1.2K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档