首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

灵魂追问 | 教程那么多,你……看完了吗?

机器学习基础 一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间区别 人人都能读懂无监督学习:什么是聚类和降? 如何解读决策树和随机森林内部工作机制?...教程 | 拟合目标函数后验分布调参利器:贝叶斯优化 入门 | 区分识别机器学习中分类与回归 深度 | 思考VC与PAC:如何理解深度神经网络中泛化理论?...:Boosting&Bagging 资源 | 神经网络调试手册:从数据与神经网络说起 观点 | 三大特征选择策略,有效提升你机器学习水准 教程 | 如何为单变量模型选择最佳回归函数 机器学习老中医...机器学习基础实现 教程 | 从头开始:用Python实现带随机梯度下降线性回归 初学TensorFlow机器学习:如何实现线性回归?...(附练习题) 教程 | 从头开始:用Python实现带随机梯度下降Logistic回归 教程 | 从头开始:用Python实现随机森林算法 教程 | 从头开始:用Python实现基线机器学习算法 教程

6.1K101

ML Mastery 博客文章翻译(二)20220116 更新

如何用 Keras 加载和可视化标准计算机视觉数据 如何使用 Keras API 加载、转换和保存图像 如何为 Keras 深度学习从目录加载大数据何为深度学习手动缩放图像像素数据 如何在 Keras...6 种 Python 降算法 机器学习降介绍 如何为机器学习使用离散化变换 特征工程与选择(书评) 如何为机器学习在表格数据上使用特征提取 如何对回归数据执行特征选择 如何对类别数据执行特征选择...如何为机器学习使用多项式特征变换 如何为机器学习使用幂变换 Python 中用于降主成分分析 如何为机器学习使用分位数变换 Python 中用于特征选择递归特征消除(RFE) 如何为机器学习缩放带有异常值数据...不平衡数据教程 用于不平衡分类装袋和随机森林 如何为不平衡分类结合过采样和欠采样 用于不平衡分类成本敏感决策树 不平衡分类成本敏感学习 不平衡分类成本敏感逻辑回归何为不平衡分类开发成本敏感神经网络...不平衡数据单类分类算法 如何计算不平衡分类准确率、召回率和 F-Measure 音素不平衡类别数据预测模型 如何校准不平衡分类概率 不平衡分类概率度量温和介绍 用于不平衡分类随机过采样和欠采样

4.4K30
您找到你想要的搜索结果了吗?
是的
没有找到

简单有监督学习实例——简单线性回归

首先,要创建一组数据随机选取一组x数据,然后计算出它在2x-1这条线附近对应数据,画出其散点图: # 演示简单线性回归 import matplotlib.pyplot as plt import...根据Scikit-Learn数据表示方法,它需要二特征矩阵和一目标数组。...5、预测新数据标签 模型训练出来以后,有监督学习主要任务变成了对不属于训练数据进行预测。用 predict() 方法进行预测。...) 二、鸢尾花数据分类 问题示例:如何为鸢尾花数据建立模型,先用一部分数据进行训练,再用模型预测出其他样本标签?...下面使用高斯朴素贝叶斯方法完成任务。由于需要用模型之前没有接触过数据评估它训练效果,因此得先将数据分割成训练和测试

44920

快速入门Python机器学习(二)

快速入门Python机器学习(二) 二、常用数据 1 使用函数生成数据 1.1 生成一个随机回归问题 X,y = make_regression() ln_samples:样本数。...手写数字数据 load_digits() 用于分类任务或者降任务数据 乳腺癌数据 load_breast_cancer() 简单经典用于二分类任务数据 糖尿病数据 load_diabetes...() 经典用于回归认为数据 波士顿房价数据 load_boston() 经典用于回归任务数据 体能训练数据 load_linnerud() 经典用于多变量回归任务数据 红酒数据...l红酒数据:load_wine(),经典用于多变量回归任务数据n类别:3。 n每类样品:[59,71,48]。 n样本数:178。 n维度:13。 n特征:实数,正数。...l波士顿房价数据:load_boston(),经典用于回归任务数据n样本总数:506。 n维度:13。 n特征:实数,正数。 n目标:real 5. - 50. 。

52731

ML Mastery 博客文章翻译 20220116 更新

线性代数温和介绍 Python NumPy N 数组温和介绍 机器学习向量温和介绍 如何在 Python 中为机器学习索引,切片和重塑 NumPy 数组 机器学习矩阵和矩阵算法简介 机器学习中特征分解...中开发标题生成模型 如何从头开发深度学习图片标题生成器 如何在 Keras 中开发基于字符神经语言模型 如何开发用于情感分析 N-gram 多通道卷积神经网络 如何从零开始开发神经机器翻译系统 如何用...牛津自然语言处理深度学习课程 如何为机器翻译准备法语到英语数据何为情感分析准备电影评论数据何为文本摘要准备新闻文章 如何准备照片标题数据来训练深度学习模型 如何使用 Keras 为深度学习准备文本数据...重缩放机器学习数据 标准机器学习数据最佳结果 如何在 Python 中开发岭回归模型 Python 中机器学习稳健回归 如何以及何时在 Python 中对分类使用 ROC 曲线和精确召回曲线 使用...如何在 Python 中从零开始编写 T 检验 如何在 Python 中生成随机数 如何转换数据来更好地拟合正态分布 如何使用相关来理解变量之间关系 如何使用统计量识别数据异常值 用于比较机器学习算法假设检验

3.3K30

一次完整机器学习过程:cikit-learn 包学习

有监督学习分类器有很多,比如决策树、随机森林、逻辑回归、梯度提升、SVM等等。如何为我们分类问题选择合适机器学习算法呢?...但是,如果你只是为你问题寻找一个“足够好”算法,或者一个起点,也是有一些还不错一般准则,比如如果训练很小,那么高偏差/低方差分类器(朴素贝叶斯分类器)要优于低偏差/高方差分类器(k近邻分类器...但是,如果你只是为你问题寻找一个“足够好”算法,或者一个起点,这里有一些这些年发现还不错一般准则。 你训练有多大?...如果训练很小,那么高偏差/低方差分类器(朴素贝叶斯分类器)要优于低偏差/高方差分类器(k近邻分类器),因为后者容易过拟合。...然而,随着训练增大,低偏差/高方差分类器将开始胜出(它们具有较低渐近误差),因为高偏差分类器不足以提供准确模型。 你也可以认为这是生成模型与判别模型区别。

72650

算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全

具体步骤如下:从原始数据集中有放回地随机抽样生成多个子数据在每个子数据上训练一个基模型对每个基模型预测结果进行平均(回归任务)或投票(分类任务)以得到最终预测结果3.2 Bagging 具体算法与流程...Bagging 具体流程:数据生成:对原始数据进行有放回随机抽样,生成多个子数据模型训练:在每个子数据上训练一个基模型(决策树)结果综合:对每个基模型预测结果进行平均或投票,得到最终预测结果...具体步骤如下:对原始数据进行有放回随机抽样,生成多个子数据在每个子数据上训练一棵决策树。...在每个节点分割时,随机选择部分特征进行考虑对所有决策树预测结果进行平均(回归任务)或投票(分类任务)以得到最终预测结果4.2 随机森林构建方法构建方法:数据生成:对原始数据进行有放回随机抽样,...它在处理高数据和噪声数据时表现出色,适用于多种任务Boosting( Adaboost 和 GBDT)通过串行训练多个基模型来逐步减少模型偏差。

1900

随机森林RF算法入门

随机森林(Random Forest)算法入门简介随机森林是一种基于决策树集成学习算法,它通过组合多个决策树来进行分类或回归任务。...算法步骤随机森林算法主要步骤如下:从原始训练集中基于有放回抽样方式,随机选择N个样本,作为训练构建决策树。...随机森林算法适用于以下应用场景:分类问题:垃圾邮件识别、肿瘤分类等。回归问题:房价预测、销售预测等。特征选择:随机森林可以给出特征重要性排名,用于特征选择。...X_test)# 计算准确率accuracy = accuracy_score(y_test, y_pred)print(f"Accuracy: {accuracy}")在上述示例中,我们使用随机森林模型对随机生成数据进行分类任务...RF算法具有许多优点,处理高数据、具有较好鲁棒性和准确性等,但同时也存在一些缺点。

60322

《deep learning》学习笔记(5)——机器学习基础

- 回归 - 转录:这类任务中,机器学习系统观测一些相对非结构化表示数据,并转录信息为离散文本形式。语音识别。...- 异常检测:在这类任务中,计算机程序在一组事件或对象中筛选,并标记不正常或非典型个体。信用卡欺诈检测。 - 合成和采样:在这类任务中,机器学习程序生成一些和训练数据相似的新样本。...训练和测试集数据通过数据上被称为数据生成过程(data generating process)概率分布生成。通常,我们会做一系列被统称为独立同分布假设(i.i.d.assumption)假设。...5.9 随机梯度下降 ? 其中,ϵ 是学习率。 5.10 构建机器学习算法 学习算法都可以被描述为一个相当简单配方:特定数据、代价函数、优化过程和模型。...5.11 促使深度学习发展挑战 5.11.1 数灾难 数灾难:当数据数很高时,很多机器学习问题变得相当困难。 ?

63930

如何使用sklearn加载和下载机器学习数据

分类 load_wine([return_X_y]) 葡萄酒数据 分类 load_digits([n_class, return_X_y]) 手写数字数据 分类 2.1波士顿房价数据 用于回归任务数据...3数据生成生成数据 sklearn中提供了数据生成器,这些生成器可以按照一些要求生成一些随机数据。这些API统一格式为:sklearn.datasets.make_。...make_hastie_10_2:产生类似的二进制、10问题。 make_moons/make_moons:生成分类数据时可以帮助确定算法(质心聚类或线性分类),包括可以选择性加入高斯噪声。...3.2回归生成器 make_regression:产生回归目标作为一个可选择稀疏线性组合具有噪声随机特征。它信息特征可能是不相关或低秩(少数特征占大多数方差)。...4API 在线下载网络数据 sklearn中提供了数据生成器,这些生成器可以按照一些要求生成一些随机数据。这些API统一格式为:sklearn.datasets.fetch_。

4.1K50

【python】在【机器学习】与【数据挖掘】中应用:从基础到【AI大模型】

、更具代表性特征,通过主成分分析(PCA)进行降。...回归任务目标是预测连续值。...首先,将数据划分为训练和测试,然后构建随机森林分类器并进行训练,最后在测试上进行预测并计算准确率。 2.2 非监督学习 非监督学习主要用于聚类和降。...通过设置API密钥并调用GPT-4o文本生成接口,我们可以生成连续文本。 五、实例验证 5.1 数据介绍 使用UCI机器学习库中Iris数据来进行分类任务实例验证。...数据增强是通过对现有数据进行随机变换(裁剪、翻转、旋转等)来生成训练样本,从而提高模型泛化能力。

9710

机器学习模型!

大家好,是花哥,前面的文章我们介绍了人工智能、机器学习、深度学习区别与联系,指出了如今的人工智能技术基本上就是指机器学习。 机器学习是通过让计算机从数据中自动提取规律和模式,进而完成特定任务。...半监督学习算法可以分为以下几类: 生成式模型:通过生成高质量假标记数据来扩充训练数据,提高模型泛化能力。 标签传播:利用无标签数据内在结构,将已知标签数据信息逐步传播到无标签数据上。...时间复杂度低:标签传播算法时间复杂度为O(n),其中n为节点数目,因此在处理大规模数据时具有较好性能。...使用场景 适用于各种需要进行社区发现场景,社交网络分析、图像分割、推荐系统等。可以将数据划分为具有相似特征社区,便于进行进一步分析和挖掘。同时,还可以用于异常值检测和分类任务预处理阶段。...例如,线性回归模型适用于预测连续数值型数据,决策树和随机森林适用于分类和回归任务,K-means聚类适用于无监督学习中聚类分析,PCA则适用于数据、特征提取和数据可视化等任务

41710

scikit-learn核心用法

自2007年发布以来,scikit-learn已经成为Python重要机器学习库了,scikit-learn简称sklearn,在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降、模型选择和预处理...( ) 生成双聚类数据 make_checkerboard( ) 生成棋盘结构数组,进行双聚类 make_circles( ) 生成二元分类数据 make_classification( ) 生成多类单标签数据...make_friedman1( ) 生成采用了多项式和正弦变换数据 make_gaussian_quantiles( ) 生成高斯分布数据 make_hastie_10_2( ) 生成10二元分类数据...make_low_rank_matrix( ) 生成具有钟形奇异值低阶矩阵 make_moons( ) 生成二元分类数据 make_multilabel_classification( ) 生成多类多标签数据...make_regression( ) 生成回归任务数据 make_s_curve( ) 生成S型曲线数据 make_sparse_coded_signal( ) 生成信号作为字典元素稀疏组合

1.1K20

如何选择合适模型?

表格数据任务 适用模型:自然语言及图像识别上面深度学习无疑是王者,但在表格类异构数据上,xgboost等集成学习树模型才是实打实神器。大量实验表明基于树模型在中型表格数据上仍然是 SOTA。...回归问题:线性回归、岭回归、支持向量回归(SVR)、集成学习、神经网络 这些模型适用于预测连续值任务,根据数据特征和问题需求选择合适模型。...无监督问题:聚类、PCA、embedding等 这些模型适用于无标签聚类、降、表示学习等任务; 4....大数据:深度学习模型、随机森林 深度学习模型能够处理大规模数据,并通过复杂网络结构捕捉数据细微差异。随机森林也能够处理大数据,并且具有较好鲁棒性。...特征数量与类型:根据特征数量和类型选择合适模型。例如,对于高稀疏数据,可以选择使用稀疏模型稀疏线性模型、支持向量机等。

2310

机器学习之sklearn基础教程

数据转换 数据转换包括将数据转换为更适合机器学习模型形式。 多项式特征 栗子:使用PolynomialFeatures生成多项式特征。...随机森林(Random Forest): 一种集成学习方法,通过构建多个决策树并进行投票来提高分类准确性。 能有效减少过拟合,提高模型稳定性。 可应用于信用卡欺诈检测等任务。...import LinearRegression from sklearn.metrics import mean_squared_error # 生成一个简单回归数据 X, y = make_regression...(n_samples=100, n_features=1, noise=0.1) # 划分训练和测试(略) #...当然,sklearn还提供了更多高级功能和算法,聚类、降、异常检测等,这些都有待我们去探索和学习。希望这篇博客能作为学习sklearn起点,助你在机器学习道路上越走越远!

9510

机器学习笔记-总结

基本概念 学习:一个系统在完成一项任务T时候,使用了数据E,使得在评判标准P下,性能获得了提升,这就是学习 统计学习对象是数据,关于统计学习基本假设是:同类数据服从一定统计规律性,即数据都是独立同分布...S折交叉验证方法(S-fold cross validation):随机地将数据切分为S个互不相交子集,然后利用S-1个子集数据训练模型,利用余下1个子集作为测试.测试选择有S中情况,所以这种验证可以进行...当数据量特别少时候,我们将每个数据分为一个子集,即如果有N数据,则S=N,这种方法称为留一交叉验证(Leave-one-out cross validation)....生成式方法应用更广,适用于各种机器学习问题,而且收敛速度快,而且对于有隐变量情况,也适用.但由于需要建模XY联合分布,所以不能进行降处理. 常见生成式模型有朴素贝叶斯法和隐马尔科夫模型....常见判别模型有KNN,感知机,决策树,逻辑斯蒂回归,最大熵模型,SVM,AdaBoost,条件随机场等. 判别式方法只能用于分类和回归问题,可以对X进行降处理.

45020

从问题到算法:哪个ML算法最适合解决问题

为具体问题选择最合适ML算法。 作者:Sukanya Bag 编译:McGL 当我开始走上数据科学职业道路,经常面临问题是为具体问题选择最合适算法。...现在我们已经对机器学习任务类型有了一些直觉,让我们基于问题陈述来探索现实生活中最流行算法及其应用! 在看完这篇文章后,可以尝试处理这些问题!可以保证你会学到很多,非常多!...问题陈述1 - 预测房价 解决该问题机器学习算法—— 先进回归技术,随机森林和梯度提升(gradient boosting) 问题陈述2 - 探索客户人口统计数据,以找到模式 解决该问题机器学习算法...—— 聚类(elbow方法) 问题陈述3 - 预测贷款偿还 解决该问题机器学习算法—— 不均衡数据分类算法 问题陈述4 - 根据皮肤病变特征(大小、形状、颜色等)判断其是良性还是恶性 解决该问题机器学习算法...希望已经解释清楚了最常用机器学习算法普遍看法,并告诉了你们如何为具体问题选择一种最合适算法。

74630

机器学习基础篇_22

思想: 将训练数据分为训练和验证。将数据分为n份,其中一份为验证。...然后经过n次(组)测试,每次都更换不同验证,轮流进行,直到每一份都数据都做过验证为止,即可得到n组模型结果,再取其平均值作为最终结果。又称为n折交叉验证。...随机N个样本中选择一个样本,重复N次(样本可能重复) 2.随机在M个特征中选择m个特征 建立10颗决策树,样本,特征大多不一样。...max_features=’auto’,每个决策树最大特征数量 优点 在当前所有算法中,准确率最好 能够有效运行在大数据上 能够处理具有高维持输入样本,而且不需要降...使用:面对训练数据规模十分庞大任务 API 特点:线性回归器是最为简单、易用回归模型。

52420

生成模型】关于无监督生成模型,你必须知道基础

(1)当输入变量和输出变量均为连续值变量时得到回归任务,它主要用于学习输入变量和输出变量之间数值映射关系,常见回归任务有价格预测、趋势预测等,处理回归任务时常用机器学习模型有最小二乘回归、非线性回归等...(1)降任务主要用于处理数据高维度问题,真实数据特征维度过大容易造成模型拟合度与可用性降低,我们可以通过降算法对高维度数据进行“压缩”使之变成低维度向量,从而提高数据可用性,常用算法有主成分分析...其中一种比较简单概率密度估计任务便是对随机变量概率密度函数进行学习,常用算法有极大似然估计、对抗生成网络、变分自编码器等,这部分内容非常丰富,是本系列关注核心内容。...半监督学习一般用于四类学习场景:半监督分类、半监督回归、半监督聚类、半监督降等。 2 判别模型与生成模型 本节我们在监督学习范围内介绍判别模型与生成模型。...假设存在一个由 N 个训练样本{x(1),x(2)...x(N)}构成训练N足够大),则可以使用训练集训练一个概率模型p*(X) ,训练完成后,概率模型p*(X)应接近于X概率密度函数p(X),

1.7K10
领券