首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

整理了25个Pandas实用技巧

从剪贴板创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet,你又想要尽快地将他们读取至DataFrame。 你需要选择这些数据复制至剪贴板。...一个字符串划分成多 我们先创建一个示例DataFrame: ? 如果我们需要将“name”这一划分为三个独立,用来表示first, middle, last name呢?...如果我们只想保留第0作为city name,我们仅需要选择那一保存至DataFrame: ? Series扩展成DataFrame 让我们创建一个示例DataFrame: ?...如果你想对某个类别,比如“Sex”,计算存活率,你可以使用groupby(): ? 如果你想一次性对两个类别变量计算存活率,你可以对这些类别变量使用groupby(): ?...注意到,该数据类型为类别变量,该类别变量自动排好序了(有序类别变量)。 Style a DataFrame 上一个技巧在你想要修改整个jupyter notebook显示会很有用。

2.8K40

整理了25个Pandas实用技巧(下)

从剪贴板创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet,你又想要尽快地将他们读取至DataFrame。 你需要选择这些数据复制至剪贴板。...比如说,让我们以", "划分location这一: 如果我们只想保留第0作为city name,我们仅需要选择那一保存至DataFrame: Series扩展成DataFrame 让我们创建一个示例...如果我们想要将第二扩展成DataFrame,我们可以对那一使用apply()函数传递给Series constructor: 通过使用concat()函数,我们可以将原来DataFrame和...(): 如果你想一次性对两个类别变量计算存活率,你可以对这些类别变量使用groupby(): 该结果展示了由Sex和Passenger Class联合起来存活率。...注意到,该数据类型为类别变量,该类别变量自动排好序了(有序类别变量)。 Style a DataFrame 上一个技巧在你想要修改整个jupyter notebook显示会很有用。

2.4K10
您找到你想要的搜索结果了吗?
是的
没有找到

特征工程(四): 类别特征

它可能在计算上很昂贵代表如此多不同类别。 如果一个类别(例如,单词)出现多个数据点(文档)时间,然后我们可以将它表示为一个计数表示所有的类别通过他们统计数字。...特征散将原始特征向量压缩为m维通过对特征ID应用散函数来创建矢量。 例如,如果原件特征是文档单词,那么散版本将具有固定词汇大小为m,无论输入中有多少独特词汇。...在这种方法,所有类别,罕见或频繁类似通过多个函数进行映射,输出范围为m,远小于类别的数量,k。 当检索一个统计量时,计算所有的哈希值该类别返回最小统计量。...有人可能会问,为什么不使用相同数据集计算相关统计量训练模型?这个想法看起来很无辜。这里最大问题是统计涉及目标变量,这是模型试图预测。使用输出来计算输入特征会导致一个称为泄漏有害问题。...一个经过训练线性模型可能会说“乘以0.7多个x查看结果是否大于全局平均值”。这些可能是x介于0和5之间。但是除此之外会发生什么?没有人知道。

3.2K20

一个真实数据集完整机器学习解决方案(上)

如果我们需要用这些形成模型特征,就需要将其转换为数值数据类型。...分组特征 我们可以先用其中一个变量对所有的建筑物进行一次分类,再在每个分类中计算该分类能源之星得分数据分布。我们可以按类别对密度图进行着色,以查看变量对分布影响。...我们先来简单解释一下特征工程和特征选取: 特征工程:特征工程是指通过原始数据,提取或创建特征,在这个过程,可能需要对部分原始变量进行转换。...特征选取:特征选取在实际过程是一项需要经验操作,往往通过删除无效或重复数据特征以帮助模型更好地学习和总结数据特征创建更具可解释性模型。...对于回归问题,一个合理基线是通过预估测试集中所有示例运行结果为训练集中目标结果均值,根据均值计算平均绝对误差(MAE)。选择MAE作为基线有两方面考虑,一是它计算简单,二是其可解释性强。

1.3K10

初学者使用Pandas特征工程

独热编码方法是将类别变量转换为多个二进制,其中1表示属于该类别的观察结果。 独热编码被明确地用于没有自然顺序类别变量。示例:Item_Type。...这就是我们如何创建多个方式。在执行这种类型特征工程时要小心,因为在使用目标变量创建特征时,模型可能会出现偏差。...但是,如果你强调日期,则会发现你还可以计算一周某天,一年某个季度,一年某周,一年某天等等。我们可以通过这一日期时间变量创建变量数量没有限制。...仅通过单个日期时间变量,我们就可以创建六个变量这些变量在模型构建时肯定会非常有用,这并不奇怪。 注意:我们可以使用pandas dt函数创建新功能方式有50多种。...它取决于问题陈述和日期时间变量(每天,每周或每月数据)频率决定要创建变量。 尾注 那就是pandas力量;仅用几行代码,我们就创建了不同类型变量,可以将模型性能提升到另一个层次。

4.8K31

R语言马科维茨Markowitz均值-方差(风险投资模型)分析最优投资组合数据预期收益率可视化|附代码数据

col = sample(2:ncol(X0), 5)从X0数据集中随机选择5个,将其索引存储在变量col这些将用于构建投资组合。...创建一个对象Spec,通过平均值设置了目标收益率。Spec包含了投资组合分析规格和参数。通过mean(colMeans(X))计算出选定平均收益率,并将其设为目标收益率。...最后,根据随机选择索引,创建一个时间序列对象X,其中包含了X0数据集选定。...col = sample(2:ncol(X0), 5)从X0数据集中随机选择5个,将这些索引存储在变量col这些将用于构建时间序列对象X。...随机选择5个创建时间序列对象X,进行投资组合分析,绘制预期收益率随时间变化折线图。

29700

特征工程之类别特征

在真实世界数据集中,类别数量总是无限。同时这些值一般可以用数值表示。但是,与其他数值变量不一样是,类别特征数值变量无法与其他数值变量进行比较大小。...它可能在计算上很昂贵代表如此多不同类别。如果一个类别(例如,单词)出现多个数据点(文档)时间,然后我们可以将它表示为一个计数表示所有的类别通过他们统计数字。这被称为bin-counting。...虚拟编码通过仅使用表示 个特征消除额外自由度。 公共汽车下面有一个特征,由全零向量表示。这被称为参考类别。...效果编码通过使用不同代码避免此问题参考类别。但是,所有-1矢量都是一个密集矢量,对于存储和计算来说都很昂贵。...特征散将原始特征向量压缩为m维通过对特征ID应用散函数来创建矢量。例如,如果原件特征是文档单词,那么散版本将具有固定词汇大小为m,无论输入中有多少独特词汇。

83410

一个完整机器学习项目在Python演练(一)

那么,当我们明确这两点之后,在我们深入挖掘数据构建模型过程我们就有个更明确标准指引我们决策。...尽管这也许不是个很必要问题,我们通常可以在不了解其他变量含义情况下创建一个可能准确模型,但我们希望更关注于模型可解释性,并且至少了解到某些可能很重要。...在Pandas,我们可以轻松计算出数据之间相关性: 与目标的最正相关(上)和最负相关(下): 从上图可以看出成最负相关几项类别变量几乎都与能源使用强度(EUI)有关。...双变量图 我们使用散点图表现两个连续变量之间关系,这样可以在点颜色包含分类变量等附加信息。...我们通过查找一行与相交位置,查看变量之间交互关系。除了看起来很酷之外,这些图可以帮助我们决定在建模包含哪些变量。 本次主要介绍了流程前两部分,敬请期待后边剖析。

1.3K20

整理了 25 个 Pandas 实用技巧,拿走不谢!

将字符型转换为数值型 让我们创建一个示例DataFrame: ? 这些数字实际上储存为字符型,导致其数据类型为object: ? 为了对这些进行数学运算,我们需要将数据类型转换成数值型。...从剪贴板创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet,你又想要尽快地将他们读取至DataFrame。 你需要选择这些数据复制至剪贴板。...将一个字符串划分成多个 我们先创建一个示例DataFrame: ? 如果我们需要将“name”这一划分为三个独立,用来表示first, middle, last name呢?...将一个由列表组成Series扩展成DataFrame 让我们创建一个示例DataFrame: ? 这里有两,第二包含了Python由整数元素组成列表。...如果你想对某个类别,比如“Sex”,计算存活率,你可以使用groupby(): ? 如果你想一次性对两个类别变量计算存活率,你可以对这些类别变量使用groupby(): ?

3.2K10

【Python】这25个Pandas高频实用技巧,不得不服!

按行从多个文件构建DataFrame 假设你数据集分化为多个文件,但是你需要将这些数据集读到一个DataFrame。 举例来说,我有一些关于股票小数聚集,每个数据集为单天CSV文件。...按多个文件构建DataFrame 上一个技巧对于数据集中每个文件包含行记录很有用。但是如果数据集中每个文件包含信息呢?...从剪贴板创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet,你又想要尽快地将他们读取至DataFrame。 你需要选择这些数据复制至剪贴板。...将一个字符串划分成多个 我们先创建一个示例DataFrame: df = pd.DataFrame({'name':['John Arthur Doe', 'Jane Ann Smith'],...male 0.188908 Name: Survived, dtype: float64 如果你想一次性对两个类别变量计算存活率,你可以对这些类别变量使用groupby(): titanic.groupby

6.4K40

爱数课实验 | 第九期-利用机器学习方法进行健康智能诊断

构建分类模型 患者是否患病是一个二分类问题,我们将使用逻辑回归、决策树以及随机森林方法对数据进行建模。 3.1 训练集测试集划分 我们根据计算label_cal对数据集进行划分。...,打印分类报告画出混淆矩阵: # 计算AUC值 test_roc_auc = roc_auc_score(y_test, y_predprb) print(test_roc_auc) # 打印模型分类预测报告...3.4 随机森林 随机森林是一种集成模型,通过使用随机方式从数据抽取样本和特征,训练多个不同决策树,形成“森林”。每个树都给出自己分类意见,称“投票”。...class_weight:用于指定样本各个类别的权重,主要是为了防止训练集某些类别的样本过多,导致训练决策树过于偏向这些类别。...在数据预处理通过查看数据描述信息发现数据存在缺失值对其进行填补;在数据探索性分析通过分组对比了不同年龄、性别的人群患病占比;在分类建模过程,分别使用了逻辑回归,决策树,随机森林三种不同方法进行预测

76020

变量分析 — 简介和实施

作为一名数据科学家,当你收到一组、不熟悉数据时,你会采取什么第一步?熟悉数据。 本文着重回答了这个问题,通过一次只分析一个变量方式,这称为单变量分析。...当我们面对一个不熟悉数据集时,可以利用单变量分析熟悉数据。它描述和总结数据,以发现不仅仅通过查看整体数据就可以轻松观察到模式。...问题3: 创建一个名为“class_verbose”,将“class”值替换为下表定义值。然后确定每个类别存在多少实例,这应该与问题2结果相匹配。...数值总结 在本节,我们将更多地关注定量变量探讨总结此类方法。一种简单方法是使用“describe”方法。让我们在下一个示例中看看它是如何工作。...直方图 直方图是一种可视化工具,通过计算每个箱实例(或观察)数量表示一个多个变量分布。在本文中,我们将专注于单变量直方图,使用seaborn“histplot”类。让我们看一个例子。

14610

案例 | 用pdpipe搭建pandas数据分析流水线

,即当恰恰满足一个条件时才会删除,满足多个或0个都不进行删除。...可以是也可以是一个聚合值),即这时函数真正传入最小计算对象是,主要参数如下: columns:str或list,用于指定对哪些进行计算 func:传入需要计算函数 drop:bool型,决定是否在计算完成后把旧删除...: 图21 OneHotEncode:   这个类用于为类别变量创建变量(即独热处理),效果等价于pandasget_dummies,主要参数如下: columns:str或list,用于指定需要进行哑变量处理列名...,默认为None,即对全部类别变量进行哑变量处理 dummy_na:bool型,决定是否将缺失值也作为哑变量一个类别进行输出,默认为False即忽略缺失值 exclude_columns:list,...时,原始变量有几个类别就对应几个哑变量被创造;当设置为指定类别值时(譬如设置drop_first = '男性'),这个值对应类别将不进行哑变量生成 drop:bool型,控制是否在生成哑变量之后删除原始类别变量

78110

(数据科学学习手札72)用pdpipe搭建pandas数据分析流水线

(可以是也可以是一个聚合值),即这时函数真正传入最小计算对象是,主要参数如下: columns:str或list,用于指定对哪些进行计算 func:传入需要计算函数 drop:bool...,计算得到聚合值填充到一个位置上: ?...图21 OneHotEncode:   这个类用于为类别变量创建变量(即独热处理),效果等价于pandasget_dummies,主要参数如下: columns:str或list,用于指定需要进行哑变量处理列名...,默认为None,即对全部类别变量进行哑变量处理 dummy_na:bool型,决定是否将缺失值也作为哑变量一个类别进行输出,默认为False即忽略缺失值 exclude_columns:list,...时,原始变量有几个类别就对应几个哑变量被创造;当设置为指定类别值时(譬如设置drop_first = '男性'),这个值对应类别将不进行哑变量生成 drop:bool型,控制是否在生成哑变量之后删除原始类别变量

1.4K10

compareGroups包,超级超级强大临床基线特征表绘制包

今天介绍一个绘制基线表包——compareGroups包。 ---- 目 录 1. 安装和加载R包 2. 加载数据集 3. 描述总研究人群(overall) 4....安装和加载R包 compareGroups包可以通过分组变量创建变量分析结果基线特征表,在创建出表格后可以导出各种格式用于报告。 在使用之前先安装和加载R包。...如果基线表纳入变量较多,不想这么麻烦,也可以选择用移除变量形式绘制基线特征表。 比如说可以通过-号形式移除下面这四个变量。...7.5 显示overall结果 在基线表,有时候需要加入总研究人群,也就是overall统计描述,可以通过修改show.all=TRUE显示。...## 先绘制一个需要输出基线特征表,储存在restab

10.6K116

推荐 | Python机器学习项目实战(附代码 + 可下载)【一】

虽然这不一定是个问题——我们通常可以在没有任何变量知识情况下创建一个准确模型——我们想把重点放在模型可解释性上,而至少了解一些可能是重要。...探索性数据分析(EDA)是一个开放式过程,我们可以计算统计数据,画图去发现数据趋势,异常,模式或关系。...首先,让我们定义这两个任务是什么: 特征工程:获取原始数据并提取或创建特征过程。...特征选择:选择数据中最相关特征过程。在特征选择,我们删除特征以帮助模型更好地总结数据创建更具可解释性模型。一般来说,我认为特征选择是减去特征,所以我们只留下那些最重要特征。...相互强相关特征被称为共线,消除这些特征对一个变量通常可以帮助机器学习模型推广更易于解释。(我应该指出,我们正在讨论特征与其他特征相关性,而不是与目标的相关性,这有助于我们模型!)

5.4K30

DAX基础表函数

强烈建议你尽可能使用变量,因为变量使代码更容易阅读。通过简单地为表达式指定一个名称,你可以很好地记录理解代码。 在计算或迭代,还可以使用RELATEDTABLE函数检索相关表所有行。...随着所使用表函数增多,你会越来越多地通过在度量值中使用计算表和复杂表表达式创建更复杂数据模型。...DAX查询强大之处在于其可以使用众多DAX表函数。在下一节,你将学习如何通过使用和组合不同表函数来创建高级计算。...例如,我们可以通过将Product[Subcategory]添加到参数获得所有类别和子类别的列表,结果如图6所示。...为了更好地了解表函数和变量强大功能,我们有必要进行更深入介绍。 第一个变量(Subcategories)存储所有类别和子类别的列表。之后,AverageSales计算所有子类别的平均销售额。

2.5K10

R语言马科维茨Markowitz均值-方差(风险投资模型)分析最优投资组合数据预期收益率可视化

col = sample(2:ncol(X0), 5) 从X0数据集中随机选择5个,将其索引存储在变量col这些将用于构建投资组合。...创建一个对象Spec,通过平均值设置了目标收益率。Spec包含了投资组合分析规格和参数。通过mean(colMeans(X))计算出选定平均收益率,并将其设为目标收益率。...对第二个类数据集进行分析: 读取名为"sample2.csv"CSV文件,并将其存储在变量X0。然后,计算X0数据集行数,加载了两个R包:fPortfolio和tseries。...最后,根据随机选择索引,创建一个时间序列对象X,其中包含了X0数据集选定。...col = sample(2:ncol(X0), 5) 从X0数据集中随机选择5个,将这些索引存储在变量col这些将用于构建时间序列对象X。

39200

5个Python自动化EDA库

报告提供单变量分布,突出数据质量问题,创建相关性。...对于文本变量报告生成了一个类似于NLP概述,如下所示: Interactions选项卡可以进行双变量分析,其中x轴变量在左,y轴变量在右。可以混搭观察变量之间相关性。...现YData报告对于在数据集上获得立足点找到进一步调查方向非常有用。因为Pandas Profiling算是最早 一个自动化EDA库了,并且YData对它做了非常大更新。...如果在Jupyter或Kaggle工作,可以使用show_notebook()呈现报告,在本地可以使用show_html()在浏览器窗口中打开报告。...还可以单击标题以显示更多选项,包括分析,更改数据类型,查找重复项,重命名列,删除或更改位置等。这些任务可以通过编写基本代码轻松完成,但是使用这个工具可以节省很多时间。

19110

Python监督学习之分类算法概述

分类:适用于目标离散数据,注意这里是目标,也就是通过模型需要预测,它如果是一个离散数据,那么适用于分类。...分类方法定义:分类分析是根据已知类别的训练集数据,建立分类模型,利用该分类模型预测未知类别数据对象所属类别。...分类方法应用: 1、模式识别(Pattern Recognition),就是通过计算机用数学技术方法研究模式自动处理和 判读。模式识别的目标往往是识别,即分析出待测试样本所属模式类别。...分类器 分类实现方法是创建一个分类器(分类函数或模型),该分类器能把待分类数据映射到给定 类别。...创建分类过程与机器学习一般过程一致 上一篇文章我们讲述了,机器学习框架和以及相关理论知识,也就是说在一个完整模型训练当中,这些步骤是不可或缺。 ​

35210
领券