首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Pandas清洗数据的4个实用小技巧

    pandas 是做数据分析时的必备库。在数据分析之前,我们往往需要对数据的大小、内容、格式做一定处理,去掉无效值和缺失值,保持结构统一,使其便于之后的分析。这一过程被称作“数据清洗”。...读取时抽样 1% 对于动辄就几十或几百个 G 的数据,在读取这么大数据时,有没有办法随机选取一小部分数据,然后读入内存,快速了解数据和开展 EDA ?...这里有一个快速清洗数据的小技巧,在某列上使用 replace 方法和正则,快速完成值的清洗。...(d) df 打印结果: customer sales 0 A 1100 1 B 950.5RMB 2 C $400 3 D $1250.75 看到 sales 列的值,有整型,浮点型+RMB后变为字符串型...转 datetime 告诉 year(年份)和 dayofyear(一年中的第几天),怎么转 datetime?

    1.7K10

    pandas

    中series与DataFrame区别 Series是带索引的一维数组 Series对象的两个重要属性是:index(索引)和value(数据值) DataFrame的任意一行或者一列就是一个Series...,代表不会导出第一行,也就是列头 读写文件注意 df.to_excel(writer, sheet_name='逐日流量', index=False) # header = 0 不要最顶上一行 pandas...df.to_excel("dates.xlsx") 向pandas中插入数据 如果想忽略行索引插入,又不想缺失数据与添加NaN值,建议使用 df['column_name'].values得出的是..._append(temp, ignore_index=True) pandas数据转置 与矩阵相同,在 Pandas 中,我们可以使用 .transpose() 方法或 .T 属性来转置 我们的DataFrame...通常情况下, 因为.T的简便性, 更常使用.T属性来进行转置 注意 转置不会影响原来的数据,所以如果想保存转置后的数据,请将值赋给一个变量再保存。

    4.9K10

    直观地解释和可视化每个复杂的DataFrame操作

    Pivot 透视表将创建一个新的“透视表”,该透视表将数据中的现有列投影为新表的元素,包括索引,列和值。初始DataFrame中将成为索引的列,并且这些列显示为唯一值,而这两列的组合将显示为值。...Melt Melt可以被认为是“不可透视的”,因为它将基于矩阵的数据(具有二维)转换为基于列表的数据(列表示值,行表示唯一的数据点),而枢轴则相反。...包含值的列将转换为两列:一列用于变量(值列的名称),另一列用于值(变量中包含的数字)。 ? 结果是ID列的值(a,b,c)和值列(B,C)及其对应值的每种组合,以列表格式组织。...Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应值的新DataFrame的列。在表上调用堆栈后再调用堆栈不会更改该堆栈(原因是存在“ 0 ”)。...另一方面,如果一个键在同一DataFrame中列出两次,则在合并表中将列出同一键的每个值组合。

    17.9K20

    Python替代Excel Vba系列(三):pandas处理不规范数据

    .replace(['/','nan'],np.nan),把读取进来的有些无效值替换为 nan,这是为了后续操作方便。...这里不能直接转整数,因为 python 怕有精度丢失,直接转换 int 会报错。因此先转 float,再转 int。...此外 pandas 中有各种内置的填充方式。 ffill 表示用上一个有效值填充。 合并单元格很多时候就是第一个有值,其他为空,ffill 填充方式刚好适合这样的情况。...如下是一个 DataFrame 的组成部分: 红框中的是 DataFrame 的值部分(values) 上方深蓝色框中是 DataFrame 的列索引(columns),注意,为什么方框不是一行?...如下图: 不妨在 excel 的透视表上操作一下,把一个放入列区域的字段移到行区域上,就是上图的结果。 ---- ---- 回到我们的例子。

    6.4K30

    别找了,这是 Pandas 最详细教程了

    本文转自『机器之心编译』(almosthuman2014) Python 是开源的,它很棒,但是也无法避免开源的一些固有问题:很多包都在做(或者在尝试做)同样的事情。...这点很棒,因为你只需要使用 pandas 就可以完成工作。 pandas 相当于 python 中 excel:它使用表(也就是 dataframe),能在数据上做各种变换,但还有其他很多功能。...更新数据 data.loc[8, column_1 ] = english 将第八行名为 column_1 的列替换为「english」 在一行代码中改变多列的值 好了,现在你可以做一些在 excel...column_3 ]) 关联三列只需要一行代码 分组 一开始并不是那么简单,你首先需要掌握语法,然后你会发现你一直在使用这个功能。...正如前面解释过的,为了优化代码,在一行中将你的函数连接起来。

    2.6K20

    python下的Pandas中DataFrame基本操作(二),DataFrame、dict、array构造简析

    DataFrame简介:   DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。...DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。...跟其他类似的数据结构相比(如R的data.frame),DataFrame中面向行和面向列的操作基本上是平衡的。...(np.array(s)) 0 1 0 1 2 1 3 4  当然了你也可以主动指定行和列索引(不赘述): >>> pd.DataFrame(np.array(s),index=['...7 3 4 8 第二种:将包含不同子列表的列表转换为数据框 from pandas.core.frame import DataFrame a=[[1,2,3,4],[5,6,7,8]]#包含两个不同的子列表

    6.3K30

    7步搞定数据清洗-Python数据清洗指南

    有没有缺失值;如果有的话,缺失值多不多? 现有数据里面有没有脏数据?尤其需要注意人工输入的数据,经常会出现名称写错,多输入空格等等的情况 3....日期调整前(为求简便这里用已经剔除分秒,剔除的办法后面在格式一致化的空格分割再详细说) #数据类型转换:字符串转换为日期 #errors='coerce' 如果原始数据不符合日期的格式,转换后的值为空值...python缺失值有3种: 1)Python内置的None值 2)在pandas中,将缺失值表示为NA,表示不可用not available。...axis=1表示逢空值去掉整列 # 'any'如果一行(或一列)里任何一个数据有任何出现Nan就去掉整行, ‘all’一行(或列)每一个数据都是Nan才去掉这整行 DataDF.dropna(how.../pandas.DataFrame.fillna.html#pandas.DataFrame.fillna 1) 用默认值填充- df.fillna(' ') 我们应该去掉那些不友好的 NaN 值。

    5.6K20

    资源 | 23种Pandas核心操作,你需要过一遍吗?

    选自 Medium 作者:George Seif 机器之心编译 参与:思源 本文转自机器之心,转载需授权 Pandas 是一个 Python 软件库,它提供了大量能使我们快速便捷地处理数据的函数和方法...在本文中,作者从基本数据集读写、数据处理和 DataFrame 操作三个角度展示了 23 个 Pandas 核心方法。...在本文中,基本数据集操作主要介绍了 CSV 与 Excel 的读写方法,基本数据处理主要介绍了缺失值及特征抽取,最后的 DataFrame 操作则主要介绍了函数和排序等方法。...(13)将 DataFrame 转换为 NumPy 数组 df.as_matrix() (14)取 DataFrame 的前面「n」行 df.head(n) (15)通过特征名取数据 df.loc[feature_name...并仅显示值等于 5 的行: df[df["size"] == 5] (23)选定特定的值 以下代码将选定「size」列、第一行的值: df.loc([0], ['size']) 原文链接: https:

    3.7K20

    通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

    在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引值实际上可用于引用行。...索引值也是持久的,所以如果你对 DataFrame 中的行重新排序,特定行的标签不会改变。 5. 副本与就地操作 大多数 Pandas 操作返回 Series/DataFrame 的副本。...在 Pandas 中,您需要更多地考虑控制 DataFrame 的显示方式。 默认情况下,pandas 会截断大型 DataFrame 的输出以显示第一行和最后一行。...在 Pandas 中,您可以直接对整列进行操作。 pandas 通过在 DataFrame 中指定单个系列来提供矢量化操作。可以以相同的方式分配新列。...在 Pandas 中,您需要在从 CSV 读取时或在 DataFrame 中读取一次时,将纯文本显式转换为日期时间对象。 解析后,Excel电子表格以默认格式显示日期,但格式可以更改。

    25.5K20

    4个解决特定的任务的Pandas高效代码

    在本文中,我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务,并以一种好的方式给出结果。 从列表中创建字典 我有一份商品清单,我想看看它们的分布情况。...,这是Pandas的一维数据结构,然后应用value_counts函数来获得在Series中出现频率的唯一值,最后将输出转换为字典。...如果有一行缺少值(即NaN),用B列中同一行的值填充它。...如果我们想要使用3列,我们可以链接combine_first函数。下面的代码行首先检查列a。如果有一个缺失的值,它从列B中获取它。如果列B中对应的行也是NaN,那么它从列C中获取值。...在这种情况下,所有缺失的值都从第二个DataFrame的相应值(即同一行,同列)中填充。

    1.8K10

    不会Pandas怎么行

    作者:Félix Revert 翻译:Nurhachu Null、张倩 本文转自公众号 机器之心 Pandas 是为了解决数据分析任务而创建的一种基于 NumPy 的工具包,囊括了许多其他工具包的功能,...这点很棒,因为你只需要使用 pandas 就可以完成工作。 pandas 相当于 python 中 excel:它使用表(也就是 dataframe),能在数据上做各种变换,但还有其他很多功能。...更新数据 将第八行名为 column_1 的列替换为「english」 在一行代码中改变多列的值 好了,现在你可以做一些在 excel 中可以轻松访问的事情了。...column_3']) 关联三列只需要一行代码 分组 一开始并不是那么简单,你首先需要掌握语法,然后你会发现你一直在使用这个功能。...正如前面解释过的,为了优化代码,在一行中将你的函数连接起来。

    2K40

    盘点66个Pandas函数,轻松搞定“数据清洗”!

    今天我们重新盘点66个Pandas函数合集,包括数据预览、数值数据操作、文本数据操作、行/列操作等等,涉及“数据清洗”的方方面面。...df.isnull().any() 输出: 日期 False 销量 True dtype: bool 发现“销量”这列存在缺失值后,处理办法要么删除dropna() ,要么填充fillna...列操作 数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。...df.rename(columns={'mark': 'sell'}, inplace=True) 输出: 行列转置,我们可以使用T属性获得转置后的DataFrame。...] Series 按数字索引选择行 df.iloc[loc] Series 使用切片选择行 df[:5] DataFrame 用表达式筛选行[3] df[bool_vec] DataFrame 除此以外

    5K11

    高效的10个Pandas函数,你都用过吗?

    Ture表示允许新的列名与已存在的列名重复 接着用前面的df: 在第三列的位置插入新列: #新列的值 new_col = np.random.randn(10) #在第三列位置插入新列,从0开始计算...Where Where用来根据条件替换行或列中的值。如果满足条件,保持原来的值,不满足条件则替换为其他值。默认替换为NaN,也可以指定特殊值。...,为False则在原数据的copy上操作 axis:行或列 将df中列value_1里小于5的值替换为0: df['value_1'].where(df['value_1'] > 5 , 0) Where...用法: Series.isin(values) 或者 DataFrame.isin(values) 筛选df中year列值在['2010','2014','2017']里的行: years = ['2010...用法: DataFrame.loc[] 或者 DataFrame.iloc[] loc:按标签(column和index)选择行和列 iloc:按索引位置选择行和列 选择df第1~3行、第1~2列的数据

    5.6K20
    领券