首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas迭代行将列的类型更改为浮点型。如何将其转换回原始类型?

在Pandas中,可以使用astype()方法将列的类型更改为浮点型。例如,假设我们有一个名为df的DataFrame,其中包含一个名为column_name的列,我们可以使用以下代码将其转换为浮点型:

代码语言:txt
复制
df['column_name'] = df['column_name'].astype(float)

要将列转换回原始类型,可以使用astype()方法将列的类型更改为先前的类型。例如,如果我们要将浮点型列转换回整数型列,可以使用以下代码:

代码语言:txt
复制
df['column_name'] = df['column_name'].astype(int)

请注意,这种转换可能会导致数据丢失或截断。因此,在进行类型转换之前,请确保了解数据的特性和需求。

关于Pandas的更多信息和使用方法,您可以参考腾讯云的相关产品和文档:

  • 腾讯云产品:云数据库 TencentDB for MySQL(https://cloud.tencent.com/product/cdb)
  • 腾讯云文档:Pandas使用手册(https://cloud.tencent.com/document/product/876/18536)
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

【精心解读】用pandas处理大数据——节省90%内存消耗小贴士

每种数据类型pandas.core.internals模块中都有一个特定类。pandas使用ObjectBlock类来表示包含字符串列数据块,用FloatBlock类来表示包含浮点数据块。...对于包含数值数据(比如整型和浮点数据块,pandas会合并这些,并把它们存储为一个Numpy数组(ndarray)。Numpy数组是在C数组基础上创建,其值在内存中是连续存储。...这对我们原始dataframe影响有限,这是由于它只包含很少整型。 同理,我们再对浮点进行相应处理: 我们可以看到所有的浮点都从float64换为float32,内存用量减少50%。...我们再创建一个原始dataframe副本,将其数值赋值为优化后类型,再看看内存用量整体优化效果。 可以看到通过我们显著缩减数值内存用量,我们dataframe整体内存用量减少了7%。...总结 我们学习了pandas如何存储不同数据类型,并利用学到知识将我们pandas dataframe内存用量降低了近90%,仅仅只用了一点简单技巧: 将数值降级到更高效类型 将字符串列转换为类别类型

8.6K50

没错,这篇文章教你妙用Pandas轻松处理大规模数据

每个类型pandas.core.internals 模块中都有一个专门类, Pandas 使用 ObjectBlock class 来代表包含字符串列块,FloatBlock class 表示包含浮点数据...我们可以看到,内存使用量从 7.9Mb 降到了 1.5 Mb,减少了 80% 以上。但这对原始数据框影响并不大,因为本身整数列就非常少。 现在,让我们来对浮点数列做同样事情。...可以看到,我们所有的浮点数列都从 float64 转换成 float32,使得内存使用量减少了 50%。...category 类型在底层使用整数类型来表示该值,而不是原始值。Pandas 用一个单独字典来映射整数值和相应原始值之间关系。当某一包含数值集有限时,这种设计是很有用。...因此,将其转换为 datetime 时,内存占用量会增加一倍,因为 datetime 类型是 64 位。无论如何将其转换成 datetime 是有价值,因为它将让时间序列分析更加容易。

3.6K40

【文件读取】文件太大怎么办?

= pd.read_csv(filename, iterator=True) # 每次读取size大小块,返回是dataframe data = reader.get_chunk(size) 修改类型...改变每一类型,从而减少存储量 对于label或者类型不多(如性别,0,1,2),默认是int64,可以将类型转换为int8 对于浮点数,默认是float64,可以转换为float32 对于类别...,比如商品ID,可以将其编码为category import pandas as pd reader = pd.read_csv(filename, iterator=True) data = reader.get_chunk...float', errors='coerce') # 计算转变后大小GB print(data.memory_usage().sum()/(1024**3)) # 将类别变量转变为category类型...:1.8328GB,int8后:1.8263GB,float32后:0.9323GB,category后:0.9037GB 可以发现修改类型后,内存消耗大幅缩减了 参考 https://zhuanlan.zhihu.com

2.6K10

Pandas使用技巧:如何将运行内存占用降低90%!

在这篇文章中,我们将了解 pandas 内存使用,以及如何只需通过为选择合适数据类型就能将 dataframe 内存占用减少近 90%。...因为 pandas 表示同一类型每个值时都使用同样字节数,而 NumPy ndarray 可以存储值数量,所以 pandas 可以快速准确地返回一个数值所消耗字节数。...但这对我们原有 dataframe 影响并不大,因为其中整型非常少。 让我们对其中浮点进行一样操作。...compare_floats.columns = ['before','after'] compare_floats.apply(pd.Series.value_counts) 100.99 MB 50.49 MB 我们可以看到浮点数据类型从...我们将编写一个循环函数来迭代式地检查每一 object 中不同值数量是否少于 50%;如果是,就将其转换成 category 类型

3.5K20

教程 | 简单实用pandas技巧:如何将内存占用降低90%

在这篇文章中,我们将了解 pandas 内存使用,以及如何只需通过为选择合适数据类型就能将 dataframe 内存占用减少近 90%。 ?...因为 pandas 表示同一类型每个值时都使用同样字节数,而 NumPy ndarray 可以存储值数量,所以 pandas 可以快速准确地返回一个数值所消耗字节数。...但这对我们原有 dataframe 影响并不大,因为其中整型非常少。 让我们对其中浮点进行一样操作。...我们可以看到浮点数据类型从 float64 变成了 float32,让内存用量降低了 50%。...我们将编写一个循环函数来迭代式地检查每一 object 中不同值数量是否少于 50%;如果是,就将其转换成 category 类型

3.8K100

30 个小例子帮你快速掌握Pandas

重设索引,但原始索引保留为新。我们可以在重置索引时将其删除。...23.分类数据类型 默认情况下,分类数据与对象数据类型一起存储。但是,这可能会导致不必要内存使用,尤其是当分类变量基数较低时。 低基数意味着与行数相比,一具有很少唯一值。...例如,Geography具有3个唯一值和10000行。 我们可以通过将其数据类型改为category来节省内存。...25.绘制直方图 Pandas不是数据可视化库,但用它创建一些基本图形还是非常简单。 我发现使用Pandas创建基本图比使用其他数据可视化库容易。 让我们创建Balance直方图。...26.减少浮点小数点位数 Pandas浮点数可能会显示过多小数点。我们可以使用舍入函数轻松调整它。 df_new.round(1)#所需小数位数 ?

10.7K10

最近,又发现了Pandas中三个好用函数

我们知道,PandasDataFrame有很多特性,比如可以将其视作是一种嵌套字典结构:外层字典key为各个列名(column),相应value为对应各,而各实际上即为内层字典,其中内层字典...实际上,在iterrows函数签名文档中给出了相应解释: 函数签名文档中示例,由于两原始数据类型分别为int和float,所以经过iterrows遍历后,返回各行Series中数据类型变为...float64,而在本文示例DataFrame中,由于三信息分别为int、float和object,所以最终返回Series数据类型即为通用:object。...示例DataFrame信息 那么,如果想要保留DataFrame中各原始数据类型时,该如何处理呢?这就需要下面的itertuples。...以此为基础,为了弥补iterrows中可能无法保留各行Series原始数据类型问题,itertuples以namedtuple形式返回各行,并也以迭代形式返回,以便于高效遍历。

1.9K10

Pandas 概览

Pandas 是 Python 核心数据分析支持库,提供了快速、灵活、明确数据结构,旨在简单、直观地处理关系、标记数据。...经过多年不懈努力,Pandas 离这个目标已经越来越近了。 Pandas 适用于处理以下类型数据: 与 SQL 或 Excel 表类似的,含异构表格数据。...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入或删除 DataFrame 等多维对象; 自动、显式数据对齐:显式地将对象与一组标签对齐...用这种方式迭代 DataFrame ,代码更易读易懂: for col in df.columns: series = df[col] # do something with series...Pandas 里,绝大多数方法都不改变原始输入数据,而是复制数据,生成新对象。一般来说,原始输入数据不变更稳妥。

1.4K10

数据分析篇 | Pandas 概览

Pandas 是 Python 核心数据分析支持库,提供了快速、灵活、明确数据结构,旨在简单、直观地处理关系、标记数据。...经过多年不懈努力,Pandas 离这个目标已经越来越近了。 Pandas 适用于处理以下类型数据: 与 SQL 或 Excel 表类似的,含异构表格数据。...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入或删除 DataFrame 等多维对象; 自动、显式数据对齐:显式地将对象与一组标签对齐...用这种方式迭代 DataFrame ,代码更易读易懂: for col in df.columns: series = df[col] # do something with series...Pandas 里,绝大多数方法都不改变原始输入数据,而是复制数据,生成新对象。一般来说,原始输入数据不变更稳妥。

1.2K20

Pandas 概览

Pandas 是 Python 核心数据分析支持库,提供了快速、灵活、明确数据结构,旨在简单、直观地处理关系、标记数据。...经过多年不懈努力,Pandas 离这个目标已经越来越近了。 Pandas 适用于处理以下类型数据: 与 SQL 或 Excel 表类似的,含异构表格数据。...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入或删除 DataFrame 等多维对象; 自动、显式数据对齐:显式地将对象与一组标签对齐...用这种方式迭代 DataFrame ,代码更易读易懂: for col in df.columns: series = df[col] # do something with series...Pandas 里,绝大多数方法都不改变原始输入数据,而是复制数据,生成新对象。一般来说,原始输入数据不变更稳妥。

1.1K00

数据分析 | 一文了解数据分析必须掌握库-Pandas

Pandas 是 Python 核心数据分析支持库,提供了快速、灵活、明确数据结构,旨在简单、直观地处理关系、标记数据。...经过多年不懈努力,Pandas 离这个目标已经越来越近了。 Pandas 适用于处理以下类型数据: 与 SQL 或 Excel 表类似的,含异构表格数据。...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入或删除 DataFrame 等多维对象; 自动、显式数据对齐:显式地将对象与一组标签对齐...用这种方式迭代 DataFrame ,代码更易读易懂: for col in df.columns: series = df[col] # do something with series...Pandas 里,绝大多数方法都不改变原始输入数据,而是复制数据,生成新对象。一般来说,原始输入数据不变更稳妥。

1.1K10

Pandas数据处理——渐进式学习1、Pandas入门基础

本专栏会很多,只要我测试出新用法就会添加,持续更新迭代,可以当做【Pandas字典】来使用,期待您三连支持与帮助。...---- Pandas介绍 Pandas 是 Python 核心数据分析支持库,提供了快速、灵活、明确数据结构,旨在简单、直观地处理关系、标记数据。...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入或删除 DataFrame 等多维对象; 自动、显式数据对齐:显式地将对象与一组标签对齐...用这种方式迭代 DataFrame ,代码更易读易懂: for col in df.columns: series = df[col] 大小可变与数据复制 Pandas 所有数据结构值都是可变...Pandas 里,绝大多数方法都不改变原始输入数据,而是复制数据,生成新对象。 一般来说,原始输入数据不变更稳妥。

2.2K50

Python数据清洗--类型转换和冗余数据删除

读取数据,以及查看数据规模、查看数据中各变量数据类型代码如下: # 导入第三方包 import pandas as pd # 读入外部数据 data3 = pd.read_excel(io=r'C...上述代码利用shape“方法”返回了数据集规模,即该数据包含3000行6;通过dtypes“方法”则返回了数据集中各变量数据类型——除id变量和age变量为数值,其余变量均为字符。...直观上能够感受到一点问题,即数据类型不对,例如用户id应该为字符,消费金额custom_amt为数值,订单日期为日期。如果发现数据类型不对,如何借助于Python工具实现数据类型转换呢?...如上结果所示,三个变量全都转换成了各自所期望数据类型。astype“方法”用于数据类型强制转换,可选择常用转换类型包括str(表示字符)、float(表示浮点)和int(表示整型)。...对于字符日期问题,推荐使用更加灵活to_datetime函数,因为它在format参数调节下,可以识别任意格式字符日期值。

1.7K20

Pandas中更改数据类型【方法总结】

例如,上面的例子,如何2和3浮点数?有没有办法将数据转换为DataFrame格式时指定类型?或者是创建DataFrame,然后通过某种方法更改每类型?...理想情况下,希望以动态方式做到这一点,因为可以有数百个,明确指定哪些是哪种类型太麻烦。可以假定每都包含相同类型值。...默认情况下,它不能处理字母字符串’pandas’: >>> pd.to_numeric(s) # or pd.to_numeric(s, errors='raise') ValueError: Unable...软转换——类型自动推断 版本0.21.0引入了infer_objects()方法,用于将具有对象数据类型DataFrame转换为更具体类型。...']}, dtype='object') >>> df.dtypes a object b object dtype: object 然后使用infer_objects(),可以将’a’类型改为

20.1K30

PySpark UD(A)F 高效使用

由于主要是在PySpark中处理DataFrames,所以可以在RDD属性帮助下访问底层RDD,并使用toDF()将其换回来。这个RDD API允许指定在数据上执行任意Python函数。...先看看pandas_udf提供了哪些特性,以及如何使用它。...利用to_json函数将所有具有复杂数据类型转换为JSON字符串。因为Arrow可以轻松处理字符串,所以可以使用pandas_udf装饰器。...在UDF中,将这些换回它们原始类型,并进行实际工作。如果想返回具有复杂类型,只需反过来做所有事情。...除了转换后数据帧外,它还返回一个带有列名及其转换后原始数据类型字典。 complex_dtypes_from_json使用该信息将这些精确地转换回它们原始类型

19.5K31

Pandas 高性能优化小技巧

在底层设计中,pandas按照数据类型分组形成数据块(blocks)。pandas使用ObjectBlock类来表示包含字符串列数据块,用FloatBlock类来表示包含浮点数据块。...对于包含数值数据(比如整型和浮点数据块,pandas会合并这些,并把它们存储为一个Numpy数组(ndarray)。Numpy数组是在C数组基础上创建,其值在内存中是连续存储。...pandas许多数据类型具有多个子类型,比如,float就有float16、float32和float64子类型,分别使用了2、4、8个字节。...因为Python是一种高层、解析语言,它没有提供很好对内存中数据如何存储细粒度控制。 这一限制导致了字符串以一种碎片化方式进行存储,消耗更多内存,并且访问速度低下。...当一只包含有限种值时,这种设计是很不错。当我们把一转换成category类型时,pandas会用一种最省空间int子类型去表示这一中所有的唯一值。 ? object数据类型 ?

2.9K20

独家 | 2种数据科学编程中思维模式,了解一下(附代码)

原型思维模式强调 生产流思维模式强调 某部分代码迭代速度 整体工作流程迭代速度 更少抽象(直接修改代码和数据类型) 更多抽象(修改参数) 代码松散(模块化程度低) 代码结构化(模块化程度高)...警告信息让我们了解到如果我们在使用pandas.read_csv()时候将low_memory参数设为False的话,数据框里每一类型将会被更好地记录。...在不同思维模式中切换 假设我们在运行函数处理所有来自借贷俱乐部数据集时候报错了,部分潜在原因如下: 不同文件当中列名存在差异 超过50%缺失值存在差异 数据框读入文件时,类型存在差异...在这种情况下,我们就要切换回原型模式并且探索更多。...: https://docs.python.org/3/library/main.html 了解如何使用Luigi来构建复杂、能够在云上面运行管道 https://marcobonzanini.com

55930

pandas 处理大数据——如何节省超90%内存

pandas 自动获取数据类型:77个浮点数,6个整数,78个对象。内存使用量为 861.8 MB。 因此我们能更好理解减少内存使用,下面看看pandas如何在内存中存储数据。...实际上,object元素是存储在内存中真实值指针。 下图展示了数值类型如何以Numpy数据存储以及如何以python内置类型存储字符串: ? 你可能注意到了,object 使用是可变大小内存。...“对象”优化 v0.15开始,pandas 引入了 Categoricals。在低层,category 类型使用整型表示值,而不是原始值。pandas 使用单独字典来映射原始值和这些整数。...当每一包含有限数据时,这非常有用。当pandas转换一为 category 类型时,pandas 会使用最节省空间 int 子类型表示每一唯一值。 ?...从上述数据中可以看到,一些数据只包含很少唯一值,也就是说大多数值都是重复。 先选择一,看看将其转换为类别类型之后会如何。使用 day_of_week 数据,只包含了7个唯一值。

6K30

Pandas Cookbook》第03章 数据分析入门1. 规划数据分析路线2. 改变数据类型,降低内存消耗3. 从最大中选择最小4. 通过排序选取每组最大值5. 用sort_values复现nl

# 数据行数与数 In[4]: college.shape Out[4]: (7535, 27) # 统计数值,并进行置 In[5]: with pd.option_context('display.max_rows...# 列出每数据类型,非缺失值数量,以及内存使用 In[7]: college.info() RangeIndex:...,RELAFFIL变为了原来八分之一,STABBR只有原始大小3% In[21]: new_mem / original_mem Out[21]: Index 1.000000...MENONLY这只包含0和1,但是由于含有缺失值,它类型浮点 In[25]: college['MENONLY'].dtype Out[25]: dtype('float64') # 任何数值类型...,只要有一个缺失值,就会成为浮点;这任何整数都会强制成为浮点 In[26]: college['MENONLY'].astype('int8') # ValueError: Cannot convert

1.3K20

python dtype o_python – 什么是dtype(’O’)? – 堆栈内存溢出「建议收藏」

数据类型对象是numpy.dtype类一个实例, numpy.dtype 更加精确地理解数据类型,包括: 数据类型(整数,浮点数,Python对象等) 数据大小(例如整数中字节数) 数据字节顺序...(little-endian或big-endian) 如果数据类型是结构化,则是其他数据类型聚合(例如,描述由整数和浮点数组成数组项) 结构“字段”名称是什么 每个字段数据类型是什么 每个字段占用内存块哪一部分...如果数据类型是子数组,那么它形状和数据类型是什么 在这个问题上下文中, dtype属于pands和numpy,特别是dtype(‘O’)意味着我们期望字符串。...df.iloc[1,:] = np.nan df.iloc[2,:] = None 但是如果我们尝试设置np.nan或None这不会影响原始dtype。...,除非我们设置所有行np.nan或None 。

2.3K20
领券