首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习笔记之数据缩放 标准化和归一化

0x01 数据缩放简介 使用单一指标对某事物进行评价并不合理,因此需要指标综合评价方法。指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。...由于性质不同不同评价指标通常具有不同量纲和数量级。当各指标相差很大时,如果直接使用原始指标值计算综合指标,就会突出数值较大指标在分析中作用、削弱数值较小指标在分析中作用。...因为这些算法是基于数据点特征计算它们距离,距离越小则两者越相似。...数据缩放主要分为两种:指标一致化、无量纲化; 0x02 指标一致化 目的是解决数据性质不同问题,也就是说涉及到多个不同统计量时,有的指标数值越大越符合预期(如:生存率),也要一些指标数值越小越符合预期...类中,每种预处理方法,一般来说都有三种方法,包括: .fit(): 用于计算训练train_x均值、方差、最大、最小等训练固有的属性。

1.9K10

4 款 Pandas 自动数据分析神器,yyds!

=True) profile Pandas Profiling操作界面 每列详情包括:缺失统计、去重计数、最、平均值等统计指标和取值分布柱状图。...与 PandasGUI 相反,Pandas Profiling没有丰富图表,但提供了非常统计指标以及相关系数。 3....Sweetviz Sweetviz与Pandas Profiling类似,提供了每列详细统计指标、取值分布、缺失统计以及列之间相关系数。...Sweetviz数据对比 蓝色和橙色代表不同数据,通过对比可以清晰发现数据之前差异。...如果探索数据侧重数据展示,可以选PandasGUI;如果只是简单了解基本统计指标,可以选择Pandas Profiling和Sweetviz;如果需要做深度数据探索,那就选择dtale。

1K10
您找到你想要的搜索结果了吗?
是的
没有找到

太赞了,这4款Pandas自动数据分析神器

=True) profile Pandas Profiling操作界面 每列详情包括:缺失统计、去重计数、最、平均值等统计指标和取值分布柱状图。...与 PandasGUI 相反,Pandas Profiling没有丰富图表,但提供了非常统计指标以及相关系数。 3....Sweetviz Sweetviz与Pandas Profiling类似,提供了每列详细统计指标、取值分布、缺失统计以及列之间相关系数。...Sweetviz数据对比 蓝色和橙色代表不同数据,通过对比可以清晰发现数据之前差异。...如果探索数据侧重数据展示,可以选PandasGUI;如果只是简单了解基本统计指标,可以选择Pandas Profiling和Sweetviz;如果需要做深度数据探索,那就选择dtale。

43620

如何在 Python 数据中灵活运用 Pandas 索引?

首先,简单介绍一下练习案例数据:  和第一篇数据一样,记录着不同流量来源下,各渠道来源明细所对应访客数、支付转化率和客单价。...数据虽然简短(复杂案例数据在基础篇完结后会如约而至),但是有足够代表性,下面开始我们索引表演。 ...先看看均值各是多少:  再判断各指标列是否大于均值:  要三个条件同时满足,他们之间是一个“且”关系(同时满足),在pandas中,要表示同时满足,各条件之间要用"&"符号连接,条件内部最好用括号区分...;如果是“或”关系(满足一个即可),则用“|”符号连接:  这样连接之后,返回True则表示该渠道同时满足访客、转化率、客单价都高于均值条件,接下来我们只需要把这些传入到行参数位置。 ...到这一步,我们直接筛选出了4条关键指标都高于均值优质渠道。

1.7K00

Python数据分析实战基础 | 灵活Pandas索引

和第一篇数据一样,记录着不同流量来源下,各渠道来源明细所对应访客数、支付转化率和客单价。数据虽然简短(复杂案例数据在基础篇完结后会如约而至),但是有足够代表性,下面开始我们索引表演。...在loc方法中,我们可以把这一列判断得到传入行参数位置,Pandas会默认返回结果为True行(这里是索引从0到12行),而丢掉结果为False行,直接上例子: ?...思路:优质渠道,得同时满足访客、转化、客单高于平均值这三个条件,这是解题关键。 先看看均值各是多少: ? 再判断各指标列是否大于均值: ?...要三个条件同时满足,他们之间是一个“且”关系(同时满足),在pandas中,要表示同时满足,各条件之间要用"&"符号连接,条件内部最好用括号区分;如果是“或”关系(满足一个即可),则用“|”符号连接...这样连接之后,返回True则表示该渠道同时满足访客、转化率、客单价都高于均值条件,接下来我们只需要把这些传入到行参数位置。 ? 到这一步,我们直接筛选出了4条关键指标都高于均值优质渠道。

1.1K20

Python 进阶视频课 - 15. 量化交易之向量化回测

这是 Python 进阶课第十五节 - 量化交易之向量化回测 ,进阶课目录如下: NumPy 上 NumPy 下 PandasPandas 下 SciPy 上 SciPy 下 Pandas...之前基础版 11 节目录如下: 编程概览 元素型数据 容器型数据 流程控制:条件-循环-异常处理 函数上:低阶函数 函数下:高阶函数 类和对象:封装-继承-多态-组合 字符串专场:格式化和正则化...,一般几行代码就能够快速得到结果,并且可以轻松测试不同参数组合。...本课介绍了应用于三种类型交易策略回测: 基于简单移动均线 (Simple Moving Average) 基于动量 (Momentum) 基于均值回归 (Mean Reversion) 对于每种策略...在探索完策略之后,将“零乱”代码以面向对象编程 (OOP) 方式整理成结构化对象。用户可以随意测试不同数据来调参、生成策略指标、可视化策略收益和基准收益。

1.5K10

解决机器学习问题有通法!看这一篇就够了!

例如: 单列,二进制(分类问题,一个样本仅属于一个类,并且只有两个类) 单列,实数值(回归问题,只预测一个列,二进制(分类问题,一个样本属于一个类,但有两个以上类) 列,实数值(回归问题...,多个预测) 多个标签(分类问题,一个样本可以属于几个类) 评估指标 对于任何类型机器学习问题,我们都一定要知道如何评估结果,或者说评估指标和目的是什么。...我不会再深入讲解不同评估指标,因为根据问题不同会有很多不同种类。 库 开始尝试机器学习库可以从安装最基础也是最重要开始,像numpy和scipy。...任何作用于训练运算都必须被保存并应用于验证。验证无论如何都不可以和训练混为一谈。因为混到一起之后虽然回到一个让用户满意评估指标值,但却会因为模型过拟合而不能使用。...下一步是识别数据中不同变量。通常有三种变量:数值变量、分类变量和文本变量。让我们用很受欢迎关于泰坦尼克号数据来举个例子。

88840

Python数据分析笔记——Numpy、Pandas

3、算数运算和数据对齐 (1)Series 与Series之间运算 将不同索引对象进行算数运算,在将对象进行相加时,如果存在时,则结果索引就是该索引,而结果对象为空。...(索引相同进行算数运算,索引不同被赋予空) 4、排序和排名 根据某种条件对数据进行排序。...obj.rank() (2)DataFrame数据结构排序和排名 按索引进行排列,一列或列中进行排序,通过by将列名传递给sort_index. 5、缺失数据处理 (1)滤出缺失数据 使用data.dropna...根据数组中数据类型不同,产生统计指标不同,有最、分位数(四分位、四分之三)、标准差、方差等指标。 7、唯一获取 此方法可以用于显示去重后数据。...相当于Excel中vlookup函数条件查找中条件。 对于层次化索引对象,选取数据方式可以通过内层索引,也可以通过外层索引来选取,选取方式和单层索引选取方式一致。

6.4K80

如何在数据竞赛中脱颖而出-见解、技术及策略

直观观察数据 成功数据分析一个先决条件是要深入挖掘数据细节,否则很难提出(或解答)正确问题。 在本例中,训练数据形式如下。 ? 其中,Loan_Status是最终要预测标签。...初始数据分析 pandasdescribe() 函数是一个非常有用工具。它可以很方便对连续数据一些关键指标进行概览。可以看到,贷款预测数据样本数非常少(仅614个)。...可以看到,我们引入新特征对贷款预测表现非常好,甚至比一些给定初始特征效果都要好。 模型选择 本竞赛是一个二分类问题。...我们可以应用不同监督学习算法进行训练,比如逻辑回归、神经网络、支持向量机(SVM),基于模型。 因为样本数据量很小,因此我们采用了随机森林模型,该模型结合了线性回归特点。...结 论 挖掘新特征、填充缺失、处理异常值和特征选择,这些都是数据挖掘过程核心步骤。这些过程往往是非线性,从而需要高效迭代处理。

28610

最全面的Pandas教程!没有之一!

Pandas基于 NumPy 一个开源 Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作。...此外,你还可以制定多行和/或列,如上所示。 条件筛选 用中括号 [] 方式,除了直接指定选中某些列外,还能接收一个条件语句,然后筛选出符合条件行/列。...生成指标,从左到右分别是:计数、平均数、标准差、最小、25% 50% 75% 位置、最大。 ? 如果你不喜欢这个排版,你可以用 .transpose() 方法获得一个竖排格式: ?...同样,inner 代表交集,Outer 代表并。 数值处理 查找不重复 不重复,在一个 DataFrame 里往往是独一无二,与众不同。找到不重复,在数据分析中有助于避免样本偏差。...查找空 假如你有一个很大数据,你可以用 Pandas .isnull() 方法,方便快捷地发现表中: ?

25.8K64

python数据分析笔记——数据加载与整理

9、10、11行三种方式均可以导入文本格式数据。 特殊说明:第9行使用条件是运行文件.py需要与目标文件CSV在一个文件夹中时候可以只写文件名。...5、文本中缺失处理,缺失数据要么是没有(空字符串),要么是用某个标记表示,默认情况下,pandas会用一组经常出现标记进行识别,如NA、NULL等。查找出结果以NAN显示。...(2)对于pandas对象(如Series和DataFrame),可以pandasconcat函数进行合并。...(2)离散化或面元划分,即根据某一条件将数据进行分组。 利用pd.cut()方式对一组年龄进行分组。 默认情况下,cut对分组条件左边是开着状态,右边是闭合状态。...可以用left(right)=False来设置哪边是闭合。 清理数据 主要是指清理重复,DataFrame中经常会出现重复行,清理数据主要是针对这些重复行进行清理。

6K80

盘一盘 Python 系列 4 - Pandas (上)

财务数据等各种数据,可以支持取单品种单指标品种单指标和单品种指标的时间序列数据 (注:不支持品种指标)。...] 单品种指标 获取平安银行在 2019-04-01 到 2019-04-04 开盘价、最低价、最高价和收盘价。...但是 wss 支持取品种指标某个时间点截面数据。...这里 wset 是专门收集数据信息函数,万矿做东西是又一套 GUI 帮你生成第一行代码,展示如下: 点击「API 函数」下面的「WSET 数据」会带给你以下界面。...来切片单列 用 [] 来切片单列或基于标签 loc 基于位置 iloc 切片 index: 用 [] 来切片单行或多行 基于标签 loc 基于位置 iloc 切片 index 和

6.1K52

Pandas必会方法汇总,数据分析必备!

2 df.tail() 查询数据末尾5行 3 pandas.qcut() 基于秩或基于样本分位数将变量离散化为等大小桶 4 pandas.cut() 基于分位数离散化函数 5 pandas.date_range...:布尔型数组(过滤行)、切片(行切片)、或布尔型DataFrame(根据条件设置) 2 df.loc[val] 通过标签,选取DataFrame单个行或一组行 3 df.loc[:,val] 通过标签...() 针对各列多个统计汇总,用统计学指标快速描述数据概要 6 .sum() 计算各列数据和 7 .count() 非NaN数量 8 .mean( ) 计算数据算术平均值 9 .median(...() 根据数据分析对象特征,按照一定数值指标,把数据分析对象划分为不同区间部分来进行研究,以揭示其内在联系和规律性。...read_sas 读取存储于SAS系统自定义存储格式SAS数据 12 read_sql 读取SQL 查询结果为pandasDataFrame 13 read_stata 读取Stata文件格式数据

5.9K20

Pandas做数据清洗,我一般都这么干……【文末送书】

一般而言,缺失处理原则无非就是以下三种: 缺失比例较小,可直接过滤掉缺失所在行 缺失比例较大,根据特定业务理解进行一定规则填充 缺失记录有特定业务含义,不做任何处理 至于在实际数据分析中应该采取哪种方案来处理...所以,这里仅给出基于Pandas具体处理方法。 1....类似地,执行重复过滤接口为drop_duplicates(),仍然可选keep参数保留不同不同重复记录: ?...03 异常值处理 不同于缺失和重复那样规则相对明朗,异常值处理相对更为复杂。...这里以某真实GPS数据为例,原始数据如下: ? 以上述三种异常值清洗需求为例,其执行流程分别如下: 1. 清洗单字段取值异常记录 以速度字段为例,首先判断其取值分布情况: ?

91621

EEG微状态:注意力缺陷多动症ADHD新功能生物标记物

还使用匹兹堡睡眠质量指数(PSQI)对患者进行睡眠障碍筛查。被试样本包括三种ADHD亚型,包括40混合型(注意缺陷和动),23名注意缺陷亚型,和3名动亚型。数据1:采集。...被试样本包括三种ADHD亚型,包括16混合型,5名注意缺陷亚型,和1名动亚型。数据2:采集。...注意缺陷和临床指标对于每个数据,我们选择了最能反映ADHD当前(即,成人)症状标准化临床问卷。...(A)ADHD、CTRL和ALL(ADHD+CTRL)三种条件五种静息态EEG地形图。(B) ADHD和CTRL之间五种静息态地形图空间相关系数。...(A)ADHD、CTRL和ALL(ADHD+CTRL)三种条件下五种静息态EEG地形图。(B) ADHD和CTRL之间五种静息态地形图空间相关系数。图6.数据2.

45530

7步搞定数据清洗-Python数据清洗指南

一般来说价格不能为负,所以从逻辑上来说如果价格是小于0数据应该予以筛出 #删除异常值:通过条件判断筛选出数据 #查询条件 querySer=DataDF.loc[:,'Quantity']>0 #应用查询条件...以不同指标的计算结果填充缺失 去除缺失知识点: DataFrame.fillna https://pandas.pydata.org/pandas-docs/stable/reference/api...但是,我们应该用什么替换呢?这个时候可能要结合你对这个数据理解,看填充什么数据才是比较合适,以下是一下常用方法。...如果想了解更多 fillna() 详细信息参考 pandas.DataFrame.fillna pandas.pydata.org 2) 以同一指标的计算结果(均值、中位数、众数等)填充缺失 平均值...填充后 4) 以不同指标的计算结果填充缺失 关于这种方法年龄字段缺失,但是有屏蔽后六位身份证号可以推算具体年龄是多少。

4.4K20

使用高斯混合模型对不同股票市场状况进行聚类

有监督与无监督机器学习 这两种方法区别在于使用数据是否有标记:监督学习使用有标注输入和输出数据,而无监督学习算法没有确定输出。数据标注是响应变量或试图预测变量包含数值或分类。...空间维度由变量数量生成。例如,如果我们有一个变量(标准普尔 500 指数回报),GMM 将基于一维数据进行拟合。GMM 可用于模拟股票市场以及其他金融应用程序状态。...为此,使用期望最大化 (EM) 算法来求解每个正态分布参数。...从上面的分析来看,两个状态也可能就可以了 可能出现一个问题是趋同性。有可能是基于初始条件和EM算法中某个阈值标准定义上,也有可能是形成不同分布。这个还需要进一步调查。...给定二维数据,GMM 能够产生三种不同状态。 最后,如果要创建一个有意义模型,应该考虑更多变量。实际上一系列不同指标构成了美国经济及其表现。

1.6K30

一个神奇Python库:Evidently,机器学习必备

功能 Evidently采用了由 3 个组件组成模块化方法:报告、测试套件和监控仪表板。 它们涵盖不同使用场景:从临时分析到自动化管道测试和持续监控。 1....测试套件:批量模型检查 测试执行结构化数据和机器学习模型质量检查,可以手动设置条件,也可以让 Evidently 根据参考数据生成条件,返回明确通过或失败结果。...主要用例:基于测试机器学习监控,以将测试作为机器学习管道中一个步骤来运行。例如,当收到一批新数据、标签或生成预测时。可以根据结果构建条件工作流程,例如触发警报、重新训练或获取报告。 2....输入:一个或两个数据,如 pandas.DataFrames 或 csv。...例如,在探索性数据分析期间、对训练进行模型评估、调试模型质量衰减时或比较多个模型时。 3. 机器学习监控仪表板 您可以自行托管机器学习监控仪表板,以随着时间推移可视化指标和测试结果。

18311

sklearn调包侠之无敌小抄

本系列教程特点: 好学易用 案例实操 哪些读者可以使用: 了解机器学习基本术语 会Python语言 会numpy和pandas使用 sklearn小抄 在愉悦做一个调包侠之前,老衲给予施主一份绝世宝典...数据导入 sklearn支持数据格式有numpy数组和pandasDataFrame格式,当然,sklearn也提供了一些数据,通过下面代码可以导入数据(具体数据见后文)。...from sklearn import datasets 数据预处理 “garbage in garbage out”,一个好模型很大程度上基于一个干净有效源数据,所以在训练模型之前,需要针对已有数据进行清洗和处理...模型选择 针对不同问题需要选择不同模型,有label标签且为离散为分类,有label标签且为连续是回归,无label就要用无监督方法了。...模型测试 针对不同类模型,模型评价指标不同,具体可看小抄和sklearn.metrics模块。在模型测试中,我们常常使用交叉验证方法。

93860

Python 探索性数据分析工具(PandasGUI,Pandas Profiling,Sweetviz,dtale)以及学术论文快速作图science.mplstyle

如果探索数据侧重数据展示,可以选PandasGUI;如果只是简单了解基本统计指标,可以选择Pandas Profiling和Sweetviz;如果需要做深度数据探索,那就选择dtale。...但数据统计做比较简单,没有提供缺失、相关系数等指标,数据转换部分也只开放了一小部分接口。...2.Pandas Profiling Pandas Profiling操作界面 每列详情包括:缺失统计、去重计数、最、平均值等统计指标和取值分布柱状图。...与 PandasGUI 相反,Pandas Profiling没有丰富图表,但提供了非常统计指标以及相关系数。 3....Sweetviz Sweetviz与Pandas Profiling类似,提供了每列详细统计指标、取值分布、缺失统计以及列之间相关系数。

54620
领券