首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    精通 Pandas:1~5

    与使用 Java,C 或 C++ 之类的语言进行数据分析相比,Pandas 的好处是多方面的: 数据表示:它可以通过其数据帧和序列数据结构以简洁的方式轻松地以自然适合于数据分析的形式表示数据。...与 Numpy ndarrays相比,pandas 数据结构更易于使用且更加用户友好,因为在数据帧和面板的情况下,它们提供行索引和列索引。数据帧对象是 Pandas 中最流行和使用最广泛的对象。....at与.loc的情况相同。 .ix运算符的混合索引 .ix运算符的行为类似于.loc和.iloc运算符的混合,其中.loc行为优先。...例如,我们可以使用fillna方法替换groupby对象中的NaN值。 使用转换后得到的对象具有与原始groupby对象相同的大小。...,将NaN值替换为原始组中的组均值,会使该组均值在转换后的数据中保持不变。

    19.2K10

    介绍一种更优雅的数据预处理方法!

    我们知道现实中的数据通常是杂乱无章的,需要大量的预处理才能使用。Pandas 是应用最广泛的数据分析和处理库之一,它提供了多种对原始数据进行预处理的方法。...在本文中,我们将重点讨论一个将「多个预处理操作」组织成「单个操作」的特定函数:pipe。 在本文中,我将通过示例方式来展示如何使用它,让我们从数据创建数据帧开始吧。..., 1.4, 1.1, 1.8, np.nan, 1.4, 1.6, 1.5] }) df 上述数据中 NaN 表示的缺失值,id 列包含重复的值,B 列中的 112 似乎是一个异常值。...: 需要一个数据帧和一列列表 对于列表中的每一列,它计算平均值和标准偏差 计算标准差,并使用下限平均值 删除下限和上限定义的范围之外的值 与前面的函数一样,你可以选择自己的检测异常值的方法。...我们可以将参数和函数名一起传递给管道。 这里需要提到的一点是,管道中的一些函数修改了原始数据帧。因此,使用上述管道也将更新df。 解决此问题的一个方法是在管道中使用原始数据帧的副本。

    2.2K30

    python数据处理 tips

    在本文中,我将分享一些Python函数,它们可以帮助我们进行数据清理,特别是在以下方面: 删除未使用的列 删除重复项 数据映射 处理空数据 入门 我们将在这个项目中使用pandas,让我们安装包。...df.head()将显示数据帧的前5行,使用此函数可以快速浏览数据集。 删除未使用的列 根据我们的样本,有一个无效/空的Unnamed:13列我们不需要。我们可以使用下面的函数删除它。...inplace=True将直接对数据帧本身执行操作,默认情况下,它将创建另一个副本,你必须再次将其分配给数据帧,如df = df.drop(columns="Unnamed: 13")。...注意:请确保映射中包含默认值male和female,否则在执行映射后它将变为nan。 处理空数据 ? 此列中缺少3个值:-、na和NaN。pandas不承认-和na为空。...df["Age"].median用于计算数据的中位数,而fillna用于中位数替换缺失值。 现在你已经学会了如何用pandas清理Python中的数据。我希望这篇文章对你有用。

    4.4K30

    Python之数据规整化:清理、转换、合并、重塑

    Python之数据规整化:清理、转换、合并、重塑 1. 合并数据集 pandas.merge可根据一个或者多个不同DataFrame中的行连接起来。...pandas.concat可以沿着一条轴将多个对象堆叠到一起。 实例方法combine_first可以将重复数据编接在一起,用一个对象中的值填充另一个对象中的缺失值。 2....4.1 重塑层次化索引 层次化索引为DataFrame数据的重排任务提供了良好的一致性方式。主要两种功能: stack:将数据的列“旋转”为行。...unstack:将数据的行“旋转”为列。 5. 数据转换 5.1 利用函数或映射进行数据转换 Series的map方法可以接受一个函数或含有映射关系的字典型对象。...5.2 替换值 replace可以由一个带替换值组成的列表以及一个替换值 data.replace([-999,-1000],np.nan) 5.3 重命名轴索引 轴标签也可通函数或映射进行转换,从而得到一个新对象轴还可以被就地修改

    3.1K60

    Python 数据科学入门教程:Pandas

    这些是一些方法,你可以直接与数据帧进行交互,引用数据框的各个方面,带有一个示例,绘制了这些特定的方面。 三、IO 基础 欢迎阅读 Pandas 和 Python 数据分析第三部分。...我倾向于将数据库数据直接倒入 Pandas 数据帧中,执行我想要执行的操作,然后将数据显示在图表中,或者以某种方式提供数据。 最后,如果我们想重新命名其中一列,该怎么办?...在这里,我们已经介绍了 Pandas 中的连接(concat)和附加数据帧。 接下来,我们将讨论如何连接(join)和合并数据帧。...完全从数据中删除。这意味着放弃整行数据。 向前或向后填充 - 这意味着只是采用之前或之后的值填充。 将其替换为静态的东西 - 例如,用-9999替换所有的NaN数据。...创建标签对监督式机器学习过程至关重要,因为它用于“教给”或训练机器与特征相关的正确答案。 Pandas 数据帧映射函数到非常有用,可用于编写自定义公式,将其应用于整个数据帧,特定列或创建新列。

    9.1K10

    【数据分析】数据缺失影响模型效果?是时候需要missingno工具包来帮你了!

    重要的是,在进行数据分析或机器学习之前,需要我们对缺失的数据进行适当的识别和处理。许多机器学习算法不能处理丢失的数据,需要删除整行数据,其中只有一个丢失的值,或者用一个新值替换(插补)。...如果丢失的数据是由数据帧中的非NaN表示的,那么应该使用np.NaN将其转换为NaN,如下所示。...df.replace('', np.NaN) missingno 库 Missingno 是一个优秀且简单易用的 Python 库,它提供了一系列可视化,以了解数据帧中缺失数据的存在和分布。...将pandas导入为 pd import pandas as pd import missingno as msno df = pd.read_csv('xeek_train_subset.csv')...Pandas 快速分析 在使用 missingno 库之前,pandas库中有一些特性可以让我们初步了解丢失了多少数据。

    4.8K30

    Pandas 学习手册中文第二版:6~10

    具体来说,我们将检查: 对序列或数据帧创建和使用索引 用索引选择值的方法 在索引之间移动数据 重新索引 Pandas 对象 对序列或数据帧创建和使用索引 索引可以显式创建,也可以让 Pandas 隐式创建...重新索引 Pandas 对象 可以使用.reindex()方法重新索引DataFrame。 重新索引使DataFrame符合新索引,将旧索引中的数据与新索引对齐,并在对齐失败的地方填充NaN。...删除的值将替换为np.NaN。.../master/docs/learning-pandas-2e/img/00306.jpeg)] 结果将NaN替换为现在不存在的类别。...如果要将数据放入实际的DataFrame中,请使用inplace=True参数。 在数学运算中处理 NaN 值 NaN值在 Pandas 中的处理方式与在 NumPy 中的处理方式不同。

    2.3K20

    数据科学 IPython 笔记本 7.1 Pandas

    7.1 Pandas 原文:Pandas 译者:飞龙 协议:CC BY-NC-SA 4.0 致谢:这个笔记摘自 Wes McKinney 的著作 《Python 数据分析》(Python for...Data Analysis) 序列(Series) 数据帧(DataFrame) 重索引 删除条目 索引,选择和过滤 算术和数据对齐 函数应用和映射 排序和排名 带有重复值的轴索引 汇总和计算描述性统计量...NaN 6 NaN dtype: float64 ''' 清洗数据(构建中) 替换 删除 连接 from pandas import Series, DataFrame import pandas...5.0 VIRGINIA 2012 1 5.1 VIRGINIA 2013 2 5.2 VIRGINIA 2014 3 4.0 MD 2014 4 4.1 MD 2015 在指定的列中,将字符串的所有出现替换为另一个字符串...import Series, DataFrame import pandas as pd 读 将 CSV 文件中的数据读入DataFrame(对 TSV 使用sep='\t'): df_1 = pd.read_csv

    5.2K20

    Pandas学习笔记02-数据合并

    第一章可前往查看:《Pandas学习笔记01-基础知识》 pandas对象中的数据可以通过一些方式进行合并: pandas.concat可以沿着一条轴将多个对象堆叠到一起; pandas.merge可根据一个或多个键将不同...DataFrame中的行连接起来。...重置列名称 1.6.行数据追加到数据帧 这样做的效率一般,使用append方法,可以将Series或字典数据添加到DataFrame。...字典数据追加到数据帧 2.merge merge可根据一个或多个键(列)相关同DataFrame中的拼接起来。...left_on:左侧数据用于连接的列 right_on:右侧数据用于连接的列 left_index:将左侧索引作为连接的列 right_index:将右侧索引作为连接的列 sort:排序,默认为True

    3.8K50

    数据清洗、合并、转化和重构

    文章来源:Python数据分析 目录: DIKW模型与数据工程 科学计算工具Numpy 数据分析工具Pandas Pandas的函数应用、层级索引、统计计算 Pandas分组与聚合 数据清洗、合并、...转化和重构 数据清洗是数据分析关键的一步,直接影响之后的处理工作 数据需要修改吗?...的行连接起来 类似数据库的连接操作 示例代码: import pandas as pd import numpy as np df_obj1 = pd.DataFrame({'key': ['b',...默认将重叠列的列名作为“外键”进行连接 示例代码: # 默认将重叠列的列名作为“外键”进行连接 print(pd.merge(df_obj1, df_obj2)) 运行结果: data1 key...replace根据值的内容进行替换 示例代码: # 单个值替换单个值 print(ser_obj.replace(1, -100)) # 多个值替换一个值 print(ser_obj.replace

    1.5K50

    数据科学和人工智能技术笔记 三、数据预处理

    三、数据预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 为 Scikit-Learn 转换 Pandas 类别数据 # 导入所需的库 from sklearn...]]) # 将数据加载为数据帧 df = pd.DataFrame(X, columns=['feature_1', 'feature_2']) # 移除带缺失值的观测 df.dropna()...3 Medium 2 4 High 3 使用下采样处理不平衡类 在下采样中,我们从多数类(即具有更多观测值的类)中不放回随机抽样,来创建与少数类相等的新观测子集。...0.4962 7 0.5897 0.3269 8 0.6308 0.5346 9 0.5000 0.6731 拟合填充器 # 创建一个填充器对象,它寻找 NaN 值,之后将它们按列替换为特征的均值...将测试数据的大小设置为完整数据集的 30%。

    2.5K20

    Pandas 秘籍:1~5

    一、Pandas 基础 在本章中,我们将介绍以下内容: 剖析数据帧的结构 访问主要的数据帧组件 了解数据类型 选择单列数据作为序列 调用序列方法 与运算符一起使用序列 将序列方法链接在一起 使索引有意义...准备 此秘籍将影片数据集的毫无意义的默认行索引替换为影片标题,这更有意义。...二、数据帧基本操作 在本章中,我们将介绍以下主题: 选择数据帧的多个列 用方法选择列 明智地排序列名称 处理整个数据帧 将数据帧方法链接在一起 将运算符与数据帧一起使用 比较缺失值 转换数据帧操作的方向...另见 参考第 1 章,“Pandas 基础”中的“将序列方法链接到一起”秘籍 将运算符与数据帧一起使用 它与第 1 章,“Pandas 基础”的秘籍有关,其中提供了关于运算符的入门知识。 这里。...where方法将保留序列或数据帧的大小,并将不符合条件的值设置为缺失或将其替换为其他值。

    37.6K10

    Pandas教程

    作为每个数据科学家都非常熟悉和使用的最受欢迎和使用的工具之一,Pandas库在数据操作、分析和可视化方面非常出色 为了帮助你完成这项任务并对Python编码更加自信,我用Pandas上一些最常用的函数和方法创建了本教程...;(2)它非常小,很简单 泰坦尼克号的数据集可以在这里下载:https://bit.ly/33tOJ2S 导入库 为了我们的目的,“Pandas”库是必须导入的 import pandas as pd...data = pd.read_excel('file_name.xls') c) 将数据帧导出到csv文件,使用to_csv data.to_csv("file_name.csv", sep=';',...基本统计 a) describe方法只给出数据的基本统计信息。默认情况下,它只计算数值数据的主统计信息。结果用pandas数据帧表示。 data.describe() ?...创建新的数据帧,复制数据,以保持原始数据的完整性。

    2.9K40

    数据清理的简要介绍

    在本文中,我们将讲解一些常见的数据清理,以及可以用来执行它的pandas代码! 缺失数据 大型数据集几乎不可能毫无瑕疵。也就是说,不是所有的数据点都具有其所有特征变量的值。...通常会有一些缺失值,当我们在pandas中使用pd.read_csv()等方式加载数据时,缺失数据往往被标记为NaN或None。有许原因可能导致数据的缺失。...在pandas中,有几种方法可以处理中缺失的数据: 检查NAN: pd.isnull(object)检测数据中的缺失值,命令会检测“NaN”和“None” 删除缺失的数据: df.dropna(axis...=0, how=’any’)返回已删除包含NaN的任何数据点的数据帧。...替换缺失的数据:df.replace(to_replace=None, value=None)将“to_replace”中给出的值替换为“value”给出的值。

    1.2K30

    数据科学 IPython 笔记本 7.6 Pandas 中的数据操作

    Pandas 包含一些有用的调整,但是:对于一元操作,如取负和三角函数,这些ufunc将保留输出中的索引和列标签,对于二元操作,如加法和乘法,将对象传递给ufunc时,Pandas 将自动对齐索引。...这意味着,保留数据的上下文并组合来自不同来源的数据 - 这两个在原始的 NumPy 数组中可能容易出错的任务 - 对于 Pandas 来说基本上是万无一失的。...2 9.0 3 5.0 dtype: float64 ''' 数据帧中的索引对齐 在DataFrames上执行操作时,列和索引都会发生类似的对齐: A = pd.DataFrame(rng.randint...执行DataFrame和Series之间的操作时,与之相似,索引和列是保持对齐的。...1 -1.0 NaN 2.0 NaN 2 3.0 NaN 1.0 NaN 索引和列的保留和对齐意味着,Pandas 中的数据操作将始终维护数据上下文,这可以防止在处理原始 NumPy 数组中的异构和

    2.8K10

    Python3快速入门(十三)——Pan

    index:索引值必须是唯一的和散列的,与数据的长度相同。 如果没有索引被传递,默认为np.arange(n)。 dtype:数据类型,如果没有,将推断数据类型。...如果传递索引,索引中与标签对应的数据中的值将被取出。...2、DataFrame的特点 数据帧(DataFrame)的功能特点如下: (1)底层数据列是不同的类型 (2)大小可变 (3)标记轴(行和列) (4)可以对行和列执行算术运算 3、DataFrame对象构造...,是DataFrame的容器,Panel的3个轴如下: items - axis 0,每个项目对应于内部包含的数据帧(DataFrame)。...major_axis - axis 1,是每个数据帧(DataFrame)的索引(行)。 minor_axis - axis 2,是每个数据帧(DataFrame)的列。

    8.6K10
    领券