首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我如何计算像'?‘这样的特殊字符?对于我在Pandas中DataFrame中的每一列?

在Pandas中,计算像'?'这样的特殊字符对于DataFrame中的每一列可以通过以下步骤完成:

  1. 导入Pandas库:
代码语言:txt
复制
import pandas as pd
  1. 创建DataFrame:
代码语言:txt
复制
df = pd.DataFrame({'col1': ['?', '1', '2', '3'],
                   'col2': ['4', '5', '?', '6'],
                   'col3': ['7', '8', '9', '?']})
  1. 将特殊字符替换为NaN:
代码语言:txt
复制
df.replace('?', pd.NA, inplace=True)
  1. 将列中的数据类型转换为数值类型(如果需要):
代码语言:txt
复制
df['col1'] = pd.to_numeric(df['col1'])
df['col2'] = pd.to_numeric(df['col2'])
df['col3'] = pd.to_numeric(df['col3'])
  1. 进行计算操作,例如求和、平均值等:
代码语言:txt
复制
sum_col1 = df['col1'].sum()
mean_col2 = df['col2'].mean()

在这个例子中,我们使用replace()函数将'?'替换为NaN,然后使用to_numeric()函数将列中的数据类型转换为数值类型(如果需要)。最后,我们可以对每一列进行计算操作,例如求和、平均值等。

请注意,这里没有提及任何特定的云计算品牌商,因为这个问题与云计算平台无关。以上是使用Pandas库进行数据处理和计算的一般方法,适用于任何云计算平台或本地环境。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Python科学计算之Pandas

它将会返回该行的一个series。在返回的series中,这一行的每一列都是一个独立的元素。 可能在你的数据集里有年份的列,或者年代的列,并且你希望可以用这些年份或年代来索引某些行。...如果你想要多个索引,你可以简单地在列表中增加另一个列名。 ? 在上面这个例子中,我们把我们的索引值全部设置为了字符串。这意味着我们不可以使用iloc索引这些列了。这种情况该如何?我们使用loc。...然而必须指出的是,ix要比loc和iloc更快。 通常我们都希望索引是整齐有序地。我们可以在Pandas中通过调用sort_index来对dataframe实现排序。 ?...由于我的所以已经是有序的了,所以为了演示,我设置了关键字参数’ascending’为False。这样,我的数据会以降序排列。 ? 当你为一列数据设置了一个索引时,它们将不再是数据本身了。...这便是使用apply的方法,即如何对一列应用一个函数。如果你想对整个数据集应用某个函数,你可以使用dataset.applymap()。

2.9K00

Python进阶之Pandas入门(四) 数据清理

'rating', 'votes', 'revenue_millions', 'metascore'], dtype='object') 如果您要使用数据集一段时间,最好使用小写字母、删除特殊字符并使用下划线替换空格...如何处理缺失的值 在研究数据时,您很可能会遇到缺失值或null值,它们实际上是不存在值的占位符。最常见的是Python的None或NumPy的np.nan,在某些情况下它们的处理方式是不同的。...处理空值有两种选择: 去掉带有空值的行或列 用非空值替换空值,这种技术称为imputation 让我们计算数据集的每一列的空值总数。...第一步是检查我们的DataFrame中的哪些单元格是空的: print (movies_df.isnull()) 运行结果: ?...可能会有这样的情况,删除每一行的空值会从数据集中删除太大的数据块,所以我们可以用另一个值来代替这个空值,通常是该列的平均值或中值。 让我们看看在revenue_millions列中输入缺失的值。

1.8K60
  • Python自动化办公之Word批量转成自定义格式的Excel

    我最终需要的excel文档结构是这样的:每道题独立占1行,每1列是这道题的一项内容,大概就是问题、选项A、选项B等等。 ?...(注意要在第一行给它加上列名,我直接加了个colomn1,代表是第一列) 简单处理后的txt文档的结构类似这样: ? 2、读取到的数据如何处理?...使用pandas读取到的数据是一个dataFrame,dataFrame的结构就类似于我们在excel文档里面那样行列分明的。...接着在真正的数据提取环节,根据这个进行判断,如果判断到它值是Fales,那么就在每一轮遍历提取数据的最后一次遍历,一次性在它后面的缺失数据的列加上空字符串,作为占位用,这样最后得到的列表长度就都一样了,...怎么调用 1、先要做数据预处理:先要把word文档的内容复制到txt文档中,并且在第一行加上"column1",处理后像下面这样: ?

    1.7K40

    【精心解读】用pandas处理大数据——节省90%内存消耗的小贴士

    下图所示为pandas如何存储我们数据表的前十二列: 可以注意到,这些数据块没有保持对列名的引用,这是由于为了存储dataframe中的真实数据,这些数据块都经过了优化。...你可以看到这些字符串的大小在pandas的series中与在Python的单独字符串中是一样的。...这是因为这样做不仅要存储全部的原始字符串数据,还要存储整型类别标识。有关category类型的更多限制,参看pandas文档。...dtype参数接受一个以列名(string型)为键字典、以Numpy类型对象为值的字典。 首先,我们将每一列的目标类型存储在以列名为键的字典中,开始前先删除日期列,因为它需要分开单独处理。...总结 我们学习了pandas如何存储不同的数据类型,并利用学到的知识将我们的pandas dataframe的内存用量降低了近90%,仅仅只用了一点简单的技巧: 将数值型列降级到更高效的类型 将字符串列转换为类别类型

    8.7K50

    浅谈NumPy和Pandas库(一)

    机器学习、深度学习在用Python时,我们要用到NumPy和Pandas库。今天我和大家一起来对这两个库的最最基本语句进行学习。...(注:从技术层面讲,NumPy数组与Pyhton列表不同,但像这样在Pyhton列表上执行这些操作,会1以Pyhton数组的形式在幕后转换该列表,所以这就不需要我们费神啦!)...Pandas中的数据经常包括在名为数据框架(data frame)的结构中,数据框架是已经标记的二维数据结构,可以让你根据需要选择不同类型的列,类型有字符串(string)、整数(int)、浮点型(float...在本例中,我们重温一下之前numpy中提到的求平均数。numpy.mean对每个自成一列的向量求平均数,这本身就是一个新的数据结构。...import numpy #numpy.mean对每一列求平均值 df.apply(numpy.mean) # one 2.0 # two 2.5 # dtype: float64 本例中,

    2.4K60

    Python数据分析实战基础 | 初识Pandas

    它提供了两种类型的数据结构,分别是DataFrame和Series,我们可以简单粗暴的把DataFrame理解为Excel里面的一张表,而Series就是表中的某一列,后面学习和用到的所有Pandas骚操作...03 创建、读取和存储 1、创建 在Pandas中我们想要构造下面这一张表应该如何操作呢? ?...别忘了,第一步一定是先导入我们的库——import pandas as pd 构造DataFrame最常用的方式是字典+列表,语句很简单,先是字典外括,然后依次打出每一列标题及其对应的列值(此处一定要用列表...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    1.8K30

    Python数据分析实战基础 | 初识Pandas

    它提供了两种类型的数据结构,分别是DataFrame和Series,我们可以简单粗暴的把DataFrame理解为Excel里面的一张表,而Series就是表中的某一列,后面学习和用到的所有Pandas骚操作...03 创建、读取和存储 1、创建 在Pandas中我们想要构造下面这一张表应该如何操作呢? ?...别忘了,第一步一定是先导入我们的库——import pandas as pd 构造DataFrame最常用的方式是字典+列表,语句很简单,先是字典外括,然后依次打出每一列标题及其对应的列值(此处一定要用列表...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    2K12

    Python数据分析实战基础 | 初识Pandas

    它提供了两种类型的数据结构,分别是DataFrame和Series,我们可以简单粗暴的把DataFrame理解为Excel里面的一张表,而Series就是表中的某一列,后面学习和用到的所有Pandas骚操作...03 创建、读取和存储 1、创建 在Pandas中我们想要构造下面这一张表应该如何操作呢? ?...别忘了,第一步一定是先导入我们的库——import pandas as pd 构造DataFrame最常用的方式是字典+列表,语句很简单,先是字典外括,然后依次打出每一列标题及其对应的列值(此处一定要用列表...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    1.4K40

    Python数据分析实战基础 | 初识Pandas

    它提供了两种类型的数据结构,分别是DataFrame和Series,我们可以简单粗暴的把DataFrame理解为Excel里面的一张表,而Series就是表中的某一列,后面学习和用到的所有Pandas骚操作...03 创建、读取和存储 1、创建 在Pandas中我们想要构造下面这一张表应该如何操作呢? ?...别忘了,第一步一定是先导入我们的库——import pandas as pd 构造DataFrame最常用的方式是字典+列表,语句很简单,先是字典外括,然后依次打出每一列标题及其对应的列值(此处一定要用列表...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    1.7K30

    一文带你快速入门Python | 初识Pandas

    它提供了两种类型的数据结构,分别是DataFrame和Series,我们可以简单粗暴的把DataFrame理解为Excel里面的一张表,而Series就是表中的某一列,后面学习和用到的所有Pandas骚操作...03 创建、读取和存储 1、创建 在Pandas中我们想要构造下面这一张表应该如何操作呢? ?...别忘了,第一步一定是先导入我们的库——import pandas as pd 构造DataFrame最常用的方式是字典+列表,语句很简单,先是字典外括,然后依次打出每一列标题及其对应的列值(此处一定要用列表...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    1.3K01

    Python数据分析实战基础 | 初识Pandas

    它提供了两种类型的数据结构,分别是DataFrame和Series,我们可以简单粗暴的把DataFrame理解为Excel里面的一张表,而Series就是表中的某一列,后面学习和用到的所有Pandas骚操作...03 创建、读取和存储 1、创建 在Pandas中我们想要构造下面这一张表应该如何操作呢? ?...别忘了,第一步一定是先导入我们的库——import pandas as pd 构造DataFrame最常用的方式是字典+列表,语句很简单,先是字典外括,然后依次打出每一列标题及其对应的列值(此处一定要用列表...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...第四步,对数据有了基础了解,就可以进行简单的增删选改了。 第五步,在了解基础操作之后,对Pandas中基础数据类型进行了初步照面。

    1.3K21

    Pandas vs Spark:获取指定列的N种方式

    在两个计算框架下,都支持了多种实现获取指定列的方式,但具体实现还是有一定区别的。 01 pd.DataFrame获取指定列 在pd.DataFrame数据结构中,提供了多种获取单列的方式。...中的一个特殊字典,其中每个列名是key,每一列的数据为value(注:这个特殊的字典允许列名重复),该种形式对列名无任何要求。...:Spark中的DataFrame每一列的类型为Column、行为Row,而Pandas中的DataFrame则无论是行还是列,都是一个Series;Spark中DataFrame有列名,但没有行索引,...而Pandas中则既有列名也有行索引;Spark中DataFrame仅可作整行或者整列的计算,而Pandas中的DataFrame则可以执行各种粒度的计算,包括元素级、行列级乃至整个DataFrame级别...在Spark中,提取特定列也支持多种实现,但与Pandas中明显不同的是,在Spark中无论是提取单列还是提取单列衍生另外一列,大多还是用于得到一个DataFrame,而不仅仅是得到该列的Column类型

    11.5K20

    一行代码将Pandas加速4倍

    Modin 如何用 Pandas 并行计算 给定 pandas 中的 DataFrame ,我们的目标是以尽可能快的方式对其执行某种计算或处理。...有了这样的体量,我们应该能够看到 pandas 有多慢,以及 Modin 是如何帮助我们加速的。对于测试,我使用一个 i7-8700k CPU,它有 6 个物理内核和 12 个线程。...此函数查找 DataFrame 中的所有 NaN 值,并将它们替换为你选择的值。panda 必须遍历每一行和每一列来查找 NaN 值并替换它们。...下表显示了我进行的一些实验中 panda 与 Modin 的运行时间。 正如你所看到的,在某些操作中,Modin 要快得多,通常是读取数据并查找值。...其他操作,如执行统计计算,在 pandas 中要快得多。

    2.9K10

    一行代码将Pandas加速4倍

    Modin 如何用 Pandas 并行计算 给定 pandas 中的 DataFrame ,我们的目标是以尽可能快的方式对其执行某种计算或处理。...有了这样的体量,我们应该能够看到 pandas 有多慢,以及 Modin 是如何帮助我们加速的。对于测试,我使用一个 i7-8700k CPU,它有 6 个物理内核和 12 个线程。...此函数查找 DataFrame 中的所有 NaN 值,并将它们替换为你选择的值。panda 必须遍历每一行和每一列来查找 NaN 值并替换它们。...下表显示了我进行的一些实验中 panda 与 Modin 的运行时间。 正如你所看到的,在某些操作中,Modin 要快得多,通常是读取数据并查找值。...其他操作,如执行统计计算,在 pandas 中要快得多。

    2.6K10

    python数据科学系列:pandas入门详细教程

    和DML操作在pandas中都可以实现 类比Excel的数据透视表功能,Excel中最为强大的数据分析工具之一是数据透视表,这在pandas中也可轻松实现 自带正则表达式的字符串向量化操作,对pandas...为了沿袭字典中的访问习惯,还可以用keys()访问标签信息,在series返回index标签,在dataframe中则返回columns列名;可以用items()访问键值对,但一般用处不大。...,可通过axis参数设置是按行删除还是按列删除 替换,replace,非常强大的功能,对series或dataframe中每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas...是在numpy的基础上实现的,所以numpy的常用数值计算操作在pandas中也适用: 通函数ufunc,即可以像操作标量一样对series或dataframe中的所有元素执行同一操作,这与numpy...仍然考虑前述学生成绩表的例子,但是再增加一列班级信息,需求是统计各班级每门课程的平均分。

    15K20

    干货:手把手教你用Python读写CSV、JSON、Excel及解析HTML

    每一行作为文本读入,你需要将文本转为一个整数——计算机可以将其作为数字理解(并处理)的数据结构,而非文本。 当数据中只有数字时一切安好。...用索引可以很方便地辨认、校准、访问DataFrame中的数据。索引可以是一列连续的数字(就像Excel中的行号)或日期;你还可以设定多列索引。...怎么做 从XML文件直接向一个pandas DataFrame对象读入数据需要些额外的代码:这是由于XML文件有特殊的结构,需要针对性地解析。接下来的章节,我们会详细解释这些方法。...使用DataFrame对象的.apply(...)方法遍历内部每一行。第一个参数指定了要应用到每行记录上的方法。axis参数的默认值为0。意味着指定的方法会应用到DataFrame的每一列上。...10)[['IATA', 'Airport_name']]) 如果想取出不止一列,可以以列表的形式传入;在我们的例子中,就是['IATA', 'Airport_name']。

    8.4K20

    pandas | 详解DataFrame中的apply与applymap方法

    今天这篇文章我们来聊聊dataframe中的广播机制,以及apply函数的使用方法。 dataframe广播 广播机制我们其实并不陌生, 我们在之前介绍numpy的专题文章当中曾经介绍过广播。...当我们对两个尺寸不一致的数组进行运算的时候,系统会自动将其中维度较小的那个填充成和另外一个一样再进行计算。...我们当然也可以对某一列进行广播,但是dataframe四则运算的广播机制默认对行生效,如果要对列使用的话,我们需要使用算术运算方法,并且指定希望匹配的轴。 ?...比如我们可以这样对DataFrame当中的某一行以及某一列应用平方这个方法。 ? 另外,apply中函数的作用域并不只局限在元素,我们也可以写出作用在一行或者是一列上的函数。...比如我们想要计算出DataFrame当中每一列的最大值,我们可以这样写: ? 这个匿名函数当中的x其实是一个Series,那这里的max就是Series自带的max方法。

    3K20

    快速提升效率的6个pandas使用小技巧

    从剪切板中创建DataFrame pandas中的read_clipboard()方法非常神奇,可以把剪切板中的数据变成dataframe格式,也就是说直接在excel中复制表格,可以快速转化为dataframe...将strings改为numbers 在pandas中,有两种方法可以将字符串改为数值: astype()方法 to_numeric()方法 先创建一个样本dataframe,看看这两种方法有什么不同。...,并且给出了非缺失值的数量,你可以计算出该列有多少缺失值。...从多个文件中构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件中,但需要把它读取到一个DataFrame中,这样的需求该如何实现?...在上图中,glob()在指定目录中查找所有以“ data_row_”开头的CSV文件。 glob()以任意顺序返回文件名,这就是为什么使用sort()函数对列表进行排序的原因。

    3.3K10

    pandas入门教程

    pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库。本文是对它的一个入门教程。...建议读者先对NumPy有一定的熟悉再来学习pandas,我之前也写过一个NumPy的基础教程,参见这里:Python 机器学习库 NumPy 教程 核心数据结构 pandas最核心的就是Series和DataFrame...这段输出说明如下: 输出的最后一行是Series中数据的类型,这里的数据都是int64类型的。 数据在第二列输出,第一列是数据的索引,在pandas中称之为Index。...我们可以分别打印出Series中的数据和索引: ? 这两行代码输出如下: ? 如果不指定(像上面这样),索引是[1, N-1]的形式。不过我们也可以在创建Series的时候指定索引。...从这个输出我们可以看到,默认的索引和列名都是[0, N-1]的形式。 我们可以在创建DataFrame的时候指定列名和索引,像这样: ? 这段代码输出如下: ?

    2.2K20

    没错,这篇文章教你妙用Pandas轻松处理大规模数据

    在处理大型数据集时(100Gb到几TB),我们通常会使用像 Spark 这样的工具,但是想要充分发挥 Spark 的功能,通常需要很高的硬件配置,导致成本过高。...在这篇文章中,我们将介绍 Pandas 的内存使用情况,以及如何通过为数据框(dataframe)中的列(column)选择适当的数据类型,将数据框的内存占用量减少近 90%。...最原始的数据是 127 个独立的 CSV 文件,不过我们已经使用 csvkit 合并了这些文件,并且在第一行中为每一列添加了名字。...下面的图标展示了数字值是如何存储在 NumPy 数据类型中,以及字符串如何使用 Python 内置的类型存储。 你可能已经注意到,我们的图表之前将对象类型描述成使用可变内存量。...首先,我们将每列的最终类型、以及列的名字的 keys 存在一个字典中。因为日期列需要单独对待,因此我们先要删除这一列。

    3.7K40
    领券