首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ML Mastery 博客文章翻译 20220116 更新

Python 从零开始实现逻辑回归 如何用 Python 从零开始实现机器学习算法指标 如何在 Python 中从零开始实现感知机算法 如何在 Python 中从零开始实现随机森林 如何在 Python...机器学习中使用梯度下降的线性回归教程 如何在 Python 中从零开始加载机器学习数据 机器学习中的逻辑回归 机器学习中的逻辑回归教程 机器学习算法迷你课程 如何在 Python 中从零开始实现朴素贝叶斯...中神经网络模型的 5 步生命周期 Python 迷你课程中的应用深度学习 用于分类的自编码器特征提取 用于回归的自编码器特征提取 如何将 AutoKeras 用于分类和回归 Keras 深度学习库的二分类教程...LSTM 编解码器循环神经网络的全局注意力的温和介绍 如何利用长短期记忆循环神经网络处理很长的序列 如何在 Python 中单热编码序列数据 如何使用编解码器 LSTM 来打印随机整数序列 带有注意力的编解码器...中用于分类的感知机算法 使用 Python 绘制机器学习算法的决策表面 使用 Python 和 Pandas 为机器学习准备数据 如何使用 Python 和 Scikit-Learn 为机器学习准备数据

3.4K30

数据科学的面试的一些基本问题总结

首先,二元逻辑回归要求因变量是二元的,而序数逻辑回归要求因变量为序数。 其次,逻辑回归要求观察结果彼此独立。换言之,观察结果不应来自重复测量或匹配数据。...最后,逻辑回归通常需要大样本量。对于模型中的每个自变量,一般情况下至少需要 10 个结果频率最低的样本。 聚类 使用 GMM 有两个好处。...让我们看看如何使用 scikit-learn 库在 Python 中实现标签编码,并了解标签编码的挑战。...在这种编码技术中,每个类别都表示为一个单向量。...多类分类:多类交叉熵 最后总结 本文分享了一些在面试中常见的问题,后续我们还会整理更多的文章,希望这篇文章对你有帮助,并祝你为即将到来的面试做好准备! 编辑:王菁

69720
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据科学的面试的一些基本问题总结

    首先,二元逻辑回归要求因变量是二元的,而序数逻辑回归要求因变量为序数。 其次,逻辑回归要求观察结果彼此独立。换言之,观察结果不应来自重复测量或匹配数据。...最后,逻辑回归通常需要大样本量。对于模型中的每个自变量,一般情况下至少需要 10 个结果频率最低的样本。 聚类 使用 GMM 有两个好处。...让我们看看如何使用 scikit-learn 库在 Python 中实现标签编码,并了解标签编码的挑战。...类别中的每个唯一值都将作为特征添加。 在这种编码技术中,每个类别都表示为一个单向量。...多类分类:多类交叉熵 最后总结 本文分享了一些在面试中常见的问题,后续我们还会整理更多的文章,希望这篇文章对你有帮助,并祝你为即将到来的面试做好准备!

    58110

    scikit-learn的核心用法

    自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理...preprocessing.OneHotEncoder( ) 独热编码 preprocessing.KBinsDiscretizer( ) 将连续数据离散化 preprocessing.FunctionTransformer...preprocessing.Normalizer() x_nor = nor_scale.fit_transform(x) print(x_nor.mean(axis=0),x_nor.std(axis=0)) # 将分类特征或数据标签转换位独热编码...模型选择 5.1 算法的选择 对于分类、回归、聚类、降维算法的选择,可以参照下图中的算法选择路径图: 从图中可以看到,按照是否为分类问题划分成了两大块,其中分类和聚类属于分类的问题(虽然聚类没有给定类别...但是不同的估计器会有自己不同的属性,例如随机森林会有Feature_importance来对衡量特征的重要性,而逻辑回归有coef_存放回归系数intercept_则存放截距等等。

    1.2K20

    scikit-learn机器学习读书笔记

    ,简单线性回归模型中,R方等于皮尔森积差相关系数(PPMCC)的平方 P28 LabelBinarizer类实现从标签到独热码的转换 P33 衡量回归任务性能的指标:平均绝对误差(MAE)和均方误差(MSE...) P38 prepocessing模块中的scale函数单独对数据集中的任何轴进行标准化 20190521 p39 词汇模型分为词袋模型和词嵌入模型,词袋模型就是简单的根据词汇进行one-hot编码...P71 cross_val_score可以轻松实现5折交叉验证 P72 讲述了使用梯度下降方法的原因:维度过大,计算复杂;对梯度下降进行了简单推导;有SGDRegreesor实现 P79 讲解了使用逻辑回归的垃圾邮件识别...,使用UCI机器学习中的数据集 P81-P86 给出了二元分类的模型评价方法,如精准率,召回率,F1,ROC AUC P87 给出了网格搜索微调模型,有GridSearchCV实现,值得看看 P89-P97...提到了多分类问题,使用kaggle的电影评价数据做示例,在scikit-learn中调用了多种包,如train_test_split用来分割训练、测试集,classification_report,accuracy_score

    55230

    如何在Python中为长短期记忆网络扩展数据

    通常,分类输入是首先要整数编码,然后进行独热编码。也就是说,一个唯一的整数值被分配给每个不同的可能的输入,然后使用1和0的二进制向量来表示每个整数值。...根据定义,一个独热编码将确保每个输入是一个较小的实际值,例如0.0或1.0。 实际值输入 你可能有一系列数值作为输入,如价格或温度。 如果数量的分布是正常的,那么就应该标准化,否则应该归一化。...多类分类问题 如果你的问题是一个多类分类问题,那么输出将是0到1之间的二进制值的向量,每个类值有一个输出。在输出层上最好使用softmax激励函数。...回归问题 如果你的问题是一个回归问题,那么输出将是一个实际值。这时最好使用线性激励函数的模型。如果该值的分布是正常的,那么可以标准化输出变量。否则,输出变量可以被归一化。...API文档 如何用Python从零开始扩展机器学习数据 如何在Python中规范化和标准化时间序列数据 如何使用Scikit-Learn在Python中准备数据以进行机器学习 概要 在本教程中,你了解了如何在使用

    4.1K70

    逻辑回归

    2 逻辑回归 2.1 从线性回归到逻辑回归 分类问题可以通过 线性回归+阈值 去解决吗?...下面为各式各样的决策边界 image 线性决策边界 image image 非线性决策边界 image 2.3 逻辑回归损失函数 损失函数与正则化 依旧存在过拟合问题,决策边界可能“抖动很厉害”!...to rank/各种分类场景 很多搜索引擎厂的广告CTR预估基线版是LR 电商搜索排序/广告CTR预估基线版是LR 新闻app的推荐和排序基线也是LR 3.2 样本处理 样本特征处理 离散化后用独热向量编码...优缺点 优点:可解释性强、输出概率结果、可用于排序、添加特征方便 缺点:模型效果与特征工程程度有关系、数据要做好预处理 样本与数据处理 数据样本采样 特征离散化、独热向量编码 工具包 Liblinear...| Spark | Scikit-learn 4 数据案例讲解 4.1 Python完成线性回归与逻辑回归 image image image 附 参考文献/Reference  Prof.

    96230

    Scikit-learn玩得很熟了?这些功能你都知道吗?

    Scikit-learn是Python所有的机器学习程序包中,你必须掌握的最重要的一个包,它包含各种分类算法,回归算法和聚类算法,其中包括支持向量机、随机森林、梯度提升、k均值和基于密度的聚类算法(DBSCAN...在Scikit-learn库中,有一个内置方法是可以实现以上过程的。...更多信息: http://scikit-learn.org/stable/modules/learning_curve.html 分类数据的独热编码(One-hot encoding of categorical...data) 这是一种非常常见的数据预处理步骤,在分类或预测任务中(如混合了数量型和文本型特征的逻辑回归),常用于对多分类变量进行二分类编码。...库包含各种随机样本生成器,可以根据不同大小和复杂程度来构建人工数据集,且具有分类、聚类、回归、矩阵分解和流形测试的功能。

    50070

    Chefboost:一个轻量级的决策树框架

    与scikit-learn相比,chefboost有三个突出的特点: 支持类别特征,这意味着我们不需要对它们进行预处理,例如,独热编码。...很高兴看到这么多现成的指标,但最突出的是训练时间。训练这棵树花了10分钟!可以通过在配置字典中将enableParallelism设置为True来并行化训练。通过这种方式,树的分支被并行地训练。...另外,与scikit-learn的另一个区别是,chefboost主要使用函数而不是类。 对模型进行训练后创建了一个新文件——> rules.py。...一方面,使用这种嵌套结构可以很清楚地遵循决策的逻辑。但另一方面,如果不设置树的最大深度(我认为chefboost中的决策树不可能做到这一点),我们便很难遵循决策路径。 ?...最后,我想比较一下chefboost和scikit-learn的速度。当然,后一个库中的决策树需要不同格式的数据,因此我们相应地准备数据。

    86250

    机器学习建模高级用法!构建企业级AI建模流水线 ⛵

    _smote.base.SMOTE’>) doesn’t 本文以『客户流失』为例,讲解如何构建 SKLearn 流水线,具体地说包含: 构建一个流水线(pipeline) ,会覆盖到 Scikit-Learn...图片 我们下面的方案流程,覆盖了上述的不同环节: 步骤 ①:数据预处理:数据清洗 步骤 ②:特征工程:数值型和类别型特征处理 步骤 ③:样本处理:类别非均衡处理 步骤 ④:逻辑回归、xgboost、随机森林...HH信息、房屋所有权、小孩信息、种族、居住年份、年龄范围、语言;地理信息如地址、州、市、县和邮政编码。...关于这里使用到的逻辑回归、随机森林和 xgboost 模型,大家可以在 ShowMeAI 的 图解机器学习算法教程 中看到详细的原理讲解。...# 逻辑回归模型 lr = LogisticRegression(warm_start=True, max_iter=400) # 随机森林模型 rf = RandomForestClassifier(

    1.2K42

    一个开源的,跨平台的.NET机器学习框架ML.NET

    该框架目前支持的学习模型包括 K-Means聚类 逻辑回归 支持向量机 朴素贝叶斯 随机森林 增强树木 其他技术,如推荐引擎和异常检测,正在开发的路线图上。...最后,还会有一些工具和语言增强功能,包括Azure和GUI / Visual Studio功能中的扩展功能。 ? 如何在应用程序中使用ML.NET?...该框架采用了用于其他机器学习库(如scikit-learn和Apache Spark MLlib)的“管道(LearningPipeline)”方法。...分类算法的输出是一个分类器,您可以使用它来预测新的未标记实例的类。多类分类方案的例子包括: 确定一只狗的品种为“西伯利亚雪橇犬”,“金毛猎犬”,“贵宾犬”等。...将电影评论理解为“正面”,“中性”或“负面”。 将酒店评论归类为“位置”,“价格”,“清洁度”等。 有关更多信息,请参阅Wikipedia上的多类分类文章。 分类步骤设置: ?

    1.5K60

    这10个小工具 将引爆机器学习DIY潮流

    Deepy由Raphael Shu开发,是一个基于Theano扩展深度学习框架,它提供了一个简洁的、高阶的组件(如LSTMs)、批规范化、自动编码等功能。...他提到开发MLxtend主要是基于以下几个原因: 一些其他地方找不到的特定算法(如序列特征选择算法、多数表决分类器、叠加预估、绘图决策区域等) 用于教学目的(逻辑回归、Softmax回归、多层感知器、PCA...,其中很多功能的实现都与scikit-learn的API相似,但作者仍在持续更新中,且作者表示所有的新增特性与创新的算法都会一起打包在MLxtend中。...Rusty Machine的开发者是否活跃,目前支持一系列想学习技术,包括:线性回归、逻辑回归、k-均值聚类、神经网络、支持向量机等等。 Rusty Machine还支持数据结构,如内置向量和矩阵。...它其实是一个机器学习项目(没有确切地表示他们必须用机器学习方法),scikit-image就属于数据处理和准备工具这一类。该项目包括一些图像处理算法,如点检测、滤波、特征选择和形态学等。 示例: ?

    1.1K70

    十大你不可忽视的机器学习项目

    Deepy由Raphael Shu开发,是一个基于Theano扩展深度学习框架,它提供了一个简洁的、高阶的组件(如LSTMs)、批规范化、自动编码等功能。...他提到开发MLxtend主要是基于以下几个原因: 一些其他地方找不到的特定算法(如序列特征选择算法、多数表决分类器、叠加预估、绘图决策区域等) 用于教学目的(逻辑回归、Softmax回归、多层感知器、PCA...,其中很多功能的实现都与scikit-learn的API相似,但作者仍在持续更新中,且作者表示所有的新增特性与创新的算法都会一起打包在MLxtend中。...Rusty Machine的开发者是否活跃,目前支持一系列想学习技术,包括:线性回归、逻辑回归、k-均值聚类、神经网络、支持向量机等等。 Rusty Machine还支持数据结构,如内置向量和矩阵。...它其实是一个机器学习项目(没有确切地表示他们必须用机器学习方法),scikit-image就属于数据处理和准备工具这一类。该项目包括一些图像处理算法,如点检测、滤波、特征选择和形态学等。 示例: ?

    1.1K80

    AdaBoost算法解密:从基础到应用的全面解析

    定义 在更为正式的术语中,AdaBoost算法可以定义为一个通过迭代方式来优化一组弱学习器(例如决策树、支持向量机或逻辑回归等)的集成方法。...通常,这意味着将多个弱学习器(或基础模型)组合到一个强学习器中。 示例 假设你有三个基础的分类模型:逻辑回归、决策树和K-近邻(K-NN)。每个模型在某个数据集上的准确率分别为70%、65%和75%。...在每一轮迭代中,都会根据当前弱学习器的性能来动态调整样本权重,并训练一个新的弱学习器。 示例 在一个用于文本分类的问题中,第一轮可能使用朴素贝叶斯分类器,第二轮可能使用决策树,第三轮可能使用逻辑回归。...环境准备 定义 首先,确保您的Python环境已经安装了scikit-learn和numpy这两个库。...示例 您可以通过以下命令来安装必要的库: pip install scikit-learn numpy 数据准备 定义 为了简化问题,我们将使用scikit-learn中内置的鸢尾花(Iris)数据集

    74921

    算法金 | 只需十四步:从零开始掌握Python机器学习(附资源)

    逻辑回归逻辑回归用于分类问题,尤其是二分类问题。决策树决策树是一种简单而强大的分类和回归方法。2.6 第六步:Python 上实现进阶机器学习算法进阶的机器学习算法能够帮助解决更复杂的数据问题。...多类分类问题介绍如何在Python中处理多类分类问题,使用如一对多(One-vs-All)或多对多(One-vs-One)等策略。...层次聚类介绍层次聚类算法,包括凝聚的和分裂的层次聚类方法,并展示如何在Python中实现它们。基于密度的聚类讨论基于密度的聚类算法,如DBSCAN,它们能够处理任意形状的聚类并识别噪声点。...梯度提升在Python中的实现展示如何在Python中使用Scikit-learn或其他库实现梯度提升,并讨论其应用场景。...以下是一些易于理解的 TensorFlow 概览和教程:TensorFlow 入门:为所有人准备的 TensorFlow 简介(第一部分和第二部分)。

    9100

    ‍ 猫头虎 分享:Python库 Scikit-Learn 的简介、安装、用法详解入门教程

    许多粉丝最近都在问我:“猫哥,如何在Python中开始机器学习?特别是使用Scikit-Learn!” 今天就让我为大家详细讲解从Scikit-Learn的安装到常见的应用场景。 1....无论你是做分类、回归、聚类还是降维,它都能帮助你快速实现。 Scikit-Learn 的核心功能: 分类任务:用于对数据进行分类,如二分类(例如垃圾邮件分类)和多分类(如手写数字识别)。...回归任务:用于预测连续值,如房价预测、股票市场价格等。 聚类任务:如 K-means,用于将数据分组成不同的类别。 降维:通过PCA(主成分分析)减少数据的维度,从而降低数据复杂性。...增加特征或进行特征工程:如创建更多有意义的特征。 问题2:如何处理 Scikit-Learn 中的类别不平衡问题?...未来,我们可以看到更多自动化模型选择、增强特征工程工具的引入,让开发者专注于业务逻辑的实现而不是模型调优。 Scikit-Learn 未来将更智能、更高效,成为每个开发者工具箱中的核心组件。

    15610

    走进机器学习:新手必看的完整入门指南

    显然,机器学习是实现人工智能的一个途径之一,即以机器学习为手段,解决人工智能中的部分问题。...机器学习在近30多年已发展为一门多领域科际集成,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。 机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。...示例算法:K-means聚类、层次聚类、主成分分析(PCA)、自编码器等等。 半监督学习 半监督学习介于监督学习和无监督学习之间,使用了少量标注数据和大量未标注数据。...选择模型和算法: 根据任务的特点选择合适的模型和算法,例如监督学习的分类问题可以使用逻辑回归、决策树等算法,无监督学习的聚类问题可以选择K-means等。...2.3 学习机器学习基础 掌握机器学习的核心概念、常见算法和实际应用: 基础算法:了解线性回归、逻辑回归、决策树、K-means聚类、支持向量机等经典算法。

    25430

    机器算法|线性回归、逻辑回归、随机森林等介绍、实现、实例

    而基本的机器学习算法大体有如下几种,其中线性回归算法、逻辑回归算法、随机森林算法为本篇重点讲解: 线性回归算法 (Linear Regression) 支持向量机算法 (Support Vector Machine...所以本篇以学习为目的,简单讲解下线性回归、逻辑回归以及随机森林,有不到之处还望给予指正。...在Python中,我们可以使用scikit-learn库中的LinearRegression类进行线性回归。线性回归算法(Linear Regression)的建模过程就是使用数据点来寻找最佳拟合线。...它可以用公式表示为: Y = E ^(b0+b1 x)/(1 + E ^(b0+b1 x )) 2.2 逻辑回归实现逻辑 下面跟着我一起学习下逻辑回归吧 导入所需的库(此处的依赖库使用到了scikit-learn...、逻辑回归、随机森林以及已经如何在Python中实现,可以利用pandas对数据进行处理,pandas直观高效的处理数据,并且可以与scikit-learn, statsmodels库实现无缝衔接。

    1.3K21

    【机器学习基础】机器学习概述与实践基础

    特征缩放   特征缩放包含数据标准化、独热编码和数据离散化。数据标准化将数据中量纲差异尽可能缩小,最终使得特征的取值范围落入一个更小的区间内。...独热编码(One-Hot)将离散型的特征使用N位状态寄存器对特征的N个状态进行编码,每个状态都对应拥有独立的寄存器位,并且在任意时候只有一个编码位有效。...针对不同类型的机器学习任务,如分类、回归、聚类等,所用的评价指标往往也不同。如分类模型常用的评价方法有准确率(Accuracy)、对数损失函数(Logloss)、AUC等。   ...基本功能主要被分为6个部分:分类、回归、聚类、数据降维、模型选择和数据预处理。...其算法库中集成大量算法,包括支持向量机、逻辑回归、朴素贝叶斯分类器、随机森林、Gradient Boosting、K-Means聚类和DBSCAN等。 3.

    15510

    跟Kaggle大神17枚金牌得主学NLP实战

    数据科学的新人会从更全面的EDA中收益。对数据进行深入的研究可以发现任何缺失的值,知道需要进行多少数据清理,并在问题的后期帮你做出建模决策。 Abhishek还提醒到,我们正在解决多类文本分类问题。...在这次竞赛中,Kaggle使用多分类的对数损失函数来衡量提交模型的性能。理想情况下,多类分类模型的对数损失函数为0。 2....预处理 接下来,Abhishek使用scikit-learn中的LabelEncoder方法为每个作者分配一个整数值。...在对作者标签进行编码之后,Abhishek使用来自scikit-learn的train_test_split将数据分成训练和验证集。...在训练集和验证集上拟合TF-IDF之后,Abhishek准备了逻辑回归模型。如果对这种分类模型不熟悉,请先阅读本文。

    64040
    领券