开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

pandas字符串包含查找: NaN导致值错误

pandas是一个开源的数据分析和数据处理工具，它提供了丰富的功能和方法来处理和分析数据。在pandas中，字符串包含查找是一种常见的操作，可以用于查找字符串是否包含特定的子字符串。然而，当涉及到包含NaN（缺失值）的字符串时，可能会导致值错误。

NaN是pandas中表示缺失值的特殊值。当字符串中包含NaN时，pandas的字符串包含查找操作可能会返回错误的结果。这是因为NaN在比较操作中被视为一个特殊的值，它与任何其他值（包括它自己）的比较结果都是False。

为了避免这个问题，我们可以使用pandas的isna()函数来检查字符串是否为NaN。isna()函数返回一个布尔值的Series，指示每个元素是否为NaN。然后，我们可以使用该布尔值的Series来过滤字符串，并执行包含查找操作。

以下是一个示例代码，演示了如何在pandas中进行字符串包含查找，并处理包含NaN的情况：

import pandas as pd

# 创建一个包含NaN的字符串Series
s = pd.Series(['apple', 'banana', 'NaN', 'orange'])

# 使用isna()函数检查字符串是否为NaN
is_nan = s.isna()

# 过滤掉NaN值
filtered_s = s[~is_nan]

# 执行包含查找操作
contains_banana = filtered_s.str.contains('banana')

# 输出结果
print(contains_banana)

在上面的代码中，我们首先创建了一个包含NaN的字符串Series。然后，使用isna()函数检查字符串是否为NaN，并将结果保存在is_nan变量中。接下来，我们使用~运算符对is_nan进行取反操作，以过滤掉NaN值。最后，我们使用str.contains()函数执行包含查找操作，并将结果保存在contains_banana变量中。最终，我们输出contains_banana的结果。

需要注意的是，以上代码只是一个示例，实际应用中可能需要根据具体的需求进行适当的修改和调整。

推荐的腾讯云相关产品：腾讯云云服务器（CVM）和腾讯云对象存储（COS）。

腾讯云云服务器（CVM）是一种弹性计算服务，提供了可扩展的计算能力，适用于各种应用场景。您可以根据实际需求选择不同配置的云服务器，并根据业务需求进行弹性调整。

腾讯云对象存储（COS）是一种安全、稳定、低成本的云存储服务，适用于存储和处理各种类型的数据。您可以将数据存储在COS中，并通过简单的API进行访问和管理。

您可以通过以下链接了解更多关于腾讯云云服务器（CVM）和腾讯云对象存储（COS）的信息：

腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm

腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos

相关搜索:Pandas DataFrame最大值、最小值和平均值在包含Nan的列上失败 Pandas不使用空字符串填充NaN值 Pandas在条件下将NaN值替换为字符串 pandas字符串包含最大值 Pandas查找最后一个非NaN值 Pandas连接/查找NaN值在pandas中查找包含列的正确设置值的行在Pandas中查找第一个非NaN值在pandas系列中如何用Nan替换非字符串值？在移位pandas中查找第一个非NaN值

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

50个Pandas的奇淫技巧:向量化字符串，玩转文本处理

Pandas为可能存在字符串的Series和Index对象提供了str属性，不仅能够进行向量化操作，还能够处理缺失值。...第一次出现的位置 rfind() 等价于str.rfind，查找字符串中指定的子字符串sub最后一次出现的位置 index() 等价于str.index，查找字符串中第一次出现的子字符串的位置 rindex...如果 False ，则返回包含字符串列表的系列/索引。 regex：布尔值，默认无。...如果 False ，则返回包含字符串列表的系列/索引。...如果na_rep 为None，并且others 不是None，则在任何列(连接之前)中包含缺失值的行将在结果中具有缺失值。

5.9K6 0

数据科学 IPython 笔记本 7.7 处理缺失数据

无论操作如何，NaN的算术结果都是另一个NaN： 1 + np.nan # nan 0 * np.nan # nan 请注意，这意味着值的聚合是定义良好的（即，它们不会导致错误），但并不总是有用...), np.nanmin(vals2), np.nanmax(vals2) # (8.0, 1.0, 4.0) 请记住，NaN是一个特殊浮点值；整数，字符串或其他类型没有等效的NaN值。...（请注意，有人建议未来向 Pandas 添加原生整数 NA；截至本文撰写时，尚未包含此内容。）...转换为float64 np.nan boolean 转换为object None或np.nan 请记住，在 Pandas 中，字符串数据始终与object dtype一起存储。...默认情况下，dropna()将删除包含空值的所有行： df.dropna() 0 1 2 1 2.0 3.0 5 或者，你可以沿不同的轴删除 NA 值; axis = 1删除包含空值的所有列： df.dropna

4K2 0

pandas处理字符串方法汇总

1 17.0 2 NaN 3 20.0 Name: Language, dtype: float64 3、检查字符串中是否包含指定的字符： # 包含 df["Language"]....Mckinney 2008 查找指定元素第一次出现的位置（索引号，左边第一个）；如果字符串中不包含该字符，则返回-1： df["Language"].str.find("a") 0 -1.0 1...1.0 2 NaN 3 1.0 Name: Language, dtype: float64 查找指定元素在最右边出现的位置；如果字符串中不包含该字符，则返回-1： df["Language...）或者指定字符 str.lower：所有字符串的字母转成小写 str.uppper：所有字符串的字母转成大写 str.find：查找字符串中指定的子字符串第一次出现的位置 str.rfind：查找字符串中指定的子字符串最后一次出现的位置...str.index：查找指定字符在字符串中第一次出现的位置（索引号） str.rindex：查找指定字符在字符串中最后一次出现的位置（索引号） str.capitalize：将字符串中的单词的第一个字母变成大写

3392 0

针对SAS用户：Python数据分析库pandas

可以认为Series是一个索引、一维数组、类似一列值。可以认为DataFrames是包含行和列的二维数组索引。好比Excel单元格按行和列位置寻址。...为了减轻上述错误的发生，在下面的数组例子中使用np.nan(缺失数据指示符)。也要注意Python如何为数组选择浮点数（或向上转型）。 ? 并不是所有使用NaN的算数运算的结果是NaN。 ?...缺失值对于数值默认用(.)表示，而字符串变量用空白(‘ ‘)表示。因此，两种类型都需要用户定义的格式。...thresh参数允许您指定要为行或列保留的最小非空值。在这种情况下，行"d"被删除，因为它只包含3个非空值。 ? ? 可以插入或替换缺失值，而不是删除行和列。....fillna()方法查找，然后用此计算值替换所有出现的NaN。 ? ? 相应的SAS程序如下所示。

12.1K2 0

解决ValueError: cannot convert float NaN to integer

如果我们知道出现错误的位置，可以通过打印相关变量的值来检查是否有NaN存在。...例如：pythonCopy codeimport numpy as np# 假设出现错误的变量是xprint(x)如果输出中包含NaN，那么我们需要找到产生NaN值的原因，并采取相应的处理方法。...以下是一个使用Pandas库实现的示例代码，展示了如何处理NaN值并转换为整数：pythonCopy codeimport pandas as pd# 创建包含学生成绩的数据集data = {'Name...值并转换为整数类型df['Average'] = df['Average'].fillna(0).astype(int)print(df)以上代码通过使用Pandas库，首先创建了一个数据集，其中包含了学生的姓名和对应的数学...可以使用整数执行各种数值计算和逻辑操作，并与其他数据类型（如浮点数、字符串）进行交互。对于某些操作，比如将一个浮点数转换为整数类型，需要注意浮点数的有效性以及特殊情况，如存在NaN值的情况。

1.4K0 0

Python—关于Pandas的缺失值问题(国内唯一)

发生编程错误。用户选择不填写字段。其中一些来源只是简单的随机错误。在其他时候，可能会有更深层的原因导致数据丢失。准备工作在开始清理数据集之前，最好先大致了解一下数据。有哪些功能？...ST_NUM：float或int…某种数字类型 ST_NAME：细绳 OWN_OCCUPIED：字符串…Y（“是”）或N（“否”） NUM_BEDROOMS：float或int，数字类型标准缺失值 “...意外的缺失值到目前为止，我们已经看到了标准缺失值和非标准缺失值。如果我们出现意外类型怎么办？例如，如果我们的功能应该是字符串，但是有数字类型，那么从技术上讲，这也是一个缺失值。...Owner Occupied的响应显然应该是字符串（Y或N），因此此数字类型应为缺失值。这个示例稍微复杂一点，因此我们需要考虑一种策略来检测这些类型的缺失值。...为了解决这个问题，我们使用异常处理来识别这些错误，并继续进行下去。代码的另一个重要部分是.loc方法。这是用于修改现有条目的首选Pandas方法。有关此的更多信息，请查看Pandas文档。

3.1K4 0

pandas 文本处理大全（附代码）

继续更新pandas数据清洗，历史文章： pandas 缺失数据处理大全（附代码） pandas 重复数据处理大全（附代码）感兴趣可以关注这个话题pandas数据清洗，第一时间看到更新。...sep: 拼接用的分隔符 na_rep: 默认不对空值处理，这里设置空值的替换字符。...另外一个查找方法是findall findall参数： pat: 要查找的内容，支持正则表达式 flag: 正则库re中的标识，比如re.IGNORECASE findall和find的区别是支持正则表达式...5 [(amei, qq)] 上面示例返回正则查找的两个部分，并以元组列表的形式出现。...7、文本包含文本包含通过contains方法实现，返回布尔值，一般和loc查询功能配合使用，参数： pat: 匹配字符串，支持正则表达式 case: 是否区分大小写，True表示区别 flags: 正则库

1.1K2 0

Python 数据分析（PYDA）第三版（三）

接收到一个或多个格式错误的行可能会导致 pandas.read_csv 出错。为了说明基本工具，考虑一个小的 CSV 文件： In [57]: !...一个与之密切相关的函数 pandas.qcut，根据样本分位数对数据进行分箱。根据数据的分布，使用 pandas.cut 通常不会导致每个箱具有相同数量的数据点。...因此，当这些数据中引入缺失数据时，pandas 会将数据类型转换为float64，并使用np.nan表示空值。这导致许多 pandas 算法中出现了微妙的问题。...；如果模式匹配，则返回一个匹配对象，否则返回 None search 扫描字符串以查找与模式匹配的内容，如果匹配，则返回一个匹配对象；与 match 不同，匹配可以出现在字符串的任何位置，而不仅仅是在开头...NaN NaN 查看更多 pandas 字符串方法，请参阅表 7.6。

2340 0

Pandas 2.2 中文官方教程和指南（十·二）

字符串列将使用nan_rep字符串表示来序列化np.nan（缺失值）。...默认为字符串值nan。您可能会无意中将实际的nan值转换为缺失值。...如果为False（默认值），缺失值将表示为np.nan。如果为True，缺失值将使用StataMissingValue对象表示，并且包含缺失值的列将具有object数据类型。...警告 Stata仅支持字符串值标签，因此在导出数据时会调用str。使用非字符串类别导出Categorical变量会产生警告，并且如果类别的str表示不唯一，则可能导致信息丢失。...要控制哪些值被解析为缺失值（用 `NaN` 表示），请在 `na_values` 中指定一个字符串。

2230 0

肝了3天，整理了90个Pandas案例，强烈建议收藏！

append, concat 和 combine_first 示例获取行和列的平均值计算行和列的总和连接两列过滤包含某字符串的行过滤索引中包含某字符串的行使用 AND 运算符过滤包含特定字符串值的行...查找包含某字符串的所有行如果行中的值包含字符串，则创建与字符串相等的另一列计算 pandas group 中每组的行数检查字符串是否在 DataFrme 中从 DataFrame 列中获取唯一行值...为特定列从 DataFrame 中查找 n-smallest 和 n-largest 值从 DataFrame 中查找所有列的最小值和最大值在 DataFrame 中找到最小值和最大值所在的索引位置...07-09 TX ---- Filter DataFrame using & ---- DateOfBirth State Pane 1999-05-12 TX 48查找包含某字符串的所有行...12 TX Frane 1983-06-04 AK Christina 1990-03-07 TX Cornelia 1999-07-09 TX 49如果行中的值包含字符串

4.5K5 0

Pandas文本数据处理 | 轻松玩转Pandas（4）

# 导入相关库 import numpy as np import pandas as pd 为什么要用str属性文本数据也就是我们常说的字符串，Pandas 为 Series 提供了 str 属性，...竟然出错了，错误原因是因为 float 类型的对象没有 lower 属性。这是因为缺失值（np.nan）属于float 类型。这时候我们的 str 属性操作来了，来看看如何使用吧。...并且能够自动排除缺失值。我们再来试试其他一些方法。例如，统计每个字符串的长度。...get_dummies() 在分隔符上分割字符串，返回虚拟变量的DataFrame contains() 如果每个字符串都包含pattern / regex，则返回布尔数组 replace() 用其他字符串替换...Series中的每个字符串 slice_replace() 用传递的值替换每个字符串中的切片 count() 计数模式的发生 startswith() 相当于每个元素的str.startswith(pat

1.7K2 0

Pandas 2.2 中文官方教程和指南（十·一）

注意可以使用index_col=False来强制 pandas不使用第一列作为索引，例如当您有一个每行末尾都有分隔符的格式错误文件时。 None的默认值指示 pandas 进行猜测。...注意在某些情况下，读取包含混合 dtype 列的异常数据将导致数据集不一致。如果依赖 pandas 推断列的 dtype，解析引擎将会推断数据的不同块的 dtype，而不是一次推断整个数据集。...mixed_df包含某些列块的int dtype，以及由于读取的数据中混合 dtype 而导致其他列块的str。...要控制哪些值被解析为缺失值（用 `NaN` 表示），请在 `na_values` 中指定一个字符串。...其他错误导致的坏行将被默默跳过。

2430 0

Pandas 学习手册中文第二版：6~10

-2e/img/00278.jpeg)] 此类别是从包含五个字符串和三个不同值的列表创建的：低，中和高。...这些情况在加载数据时会导致错误。为了处理这些情况，Pandas pd.read_csv()和pd.read_table()方法具有一些有用的参数来帮助我们。...其次，DataFrame的索引尽管包含内容，但仍按字符串排序。这些问题很容易解决，但为简洁起见，此处不再赘述。...值可以为NaN的原因有很多：两组数据的连接没有匹配的值您从外部来源检索的数据不完整给定的时间点的NaN值未知，稍后会填充检索值时发生数据收集错误，但该事件仍必须记录在索引中重新索引数据导致索引没有值...在某些统计分析中，当使用 0 值的较大偏差会导致错误故障时，这可能是可以接受的。

2.3K2 0

Pandas 查找，丢弃列值唯一的列

前言数据清洗很重要，本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列，简言之，就是某列的数值除空值外，全都是一样的，比如：全0，全1，或者全部都是一样的字符串如...：已支付，已支付，已支付… 这些列大多形同虚设，所以当数据集列很多而导致人眼难以查找时，这个方法尤为好用。...上代码前先上个坑吧，数据列中的空值 NaN 也会被 Pandas 认为是一种 “ 值 ”，如下图：所以只要把列的缺失值先丢弃，再统计该列的唯一值的个数即可。...代码实现数据读入检测列值唯一的所有列并丢弃最后总结一下，Pandas 在数据清洗方面有非常多实用的操作，很多时候我们想不到只是因为没有接触过类似的案例或者不知道怎么转换语言描述，比如 “...列值唯一 ” --> “ 除了空值以外的唯一值的个数等于1 ” ，许多坑笔者都已经踩过了，欢迎查看我的其余文章，提建议，共同进步。

5.6K2 1

用Pandas处理缺失值

Pandas的缺失值 Pandas 用标签方法表示缺失值，包括两种 Python 原有的缺失值：浮点数据类型的 NaN 值 Python的 None 对象。...None 的数组进行累计操作，如 sum() 或者 min()，那么通常会出现类型错误。...(vals2) (8.0, 1.0, 4.0) 谨记， NaN 是一种特殊的浮点数，不是整数、 字符串以及其他数据类型。...中字符串类型的数据通常是用 object 类型存储的。...axis='rows', thresh=3)) 0 1 2 3 1 2.0 3.0 5 NaN 第 1 行与第 3 行被剔除了，因为它们只包含两个非缺失值。

2.8K1 0

Pandas 2.2 中文官方教程和指南（九·三）

注意在 pandas 1.0 之前，字符串方法仅适用于 object -dtype Series。pandas 1.0 添加了 StringDtype，专门用于字符串。...请参阅向量化字符串方法以获取完整的描述。排序 pandas 支持三种排序方式：按索引标签排序、按列值排序以及按两者组合排序。...这将导致在将来版本中出现歧义错误。...但是，如果errors='coerce'，这些错误将被忽略，pandas 将把有问题的元素转换为pd.NaT（对于日期时间和时间增量）或np.nan（对于数值）。...但是，如果errors='coerce'，这些错误将被忽略，pandas 将把有问题的元素转换为pd.NaT（对于日期时间和时间间隔）或np.nan（对于数值）。

2470 0

-Pandas 清洗“脏”数据（一）

不幸的是，有一些列的值是缺失的，有些列的默认值是0，有的是 NaN（Not a Number）。下面我们通过使用 Pandas 提供的功能来清洗“脏”数据。...下面介绍几个处理缺失数据的方法：为缺失数据赋值默认值去掉/删除缺失数据行去掉/删除缺失率高的列添加默认值我们应该去掉那些不友好的 NaN 值。但是，我们应该用什么值替换呢？...这一列非常简单，然而有一些电影没有提供地区，所以有些数据的值是 NaN。在我们的案例中，我们推断地区并不是很重要，所以，我们可是使用“”空字符串或其他默认值。...这样的方式下，就不会因为像 0 或者 NaN这样的值在我们分析的时候而抛错。...规范化数据类型有的时候，尤其当我们读取 csv 中一串数字的时候，有的时候数值类型的数字被读成字符串的数字，或将字符串的数字读成数据值类型的数字。

3.8K7 0

pandas 文本处理大全

sep: 拼接用的分隔符 na_rep: 默认不对空值处理，这里设置空值的替换字符。...另外一个查找方法是findall findall参数： pat: 要查找的内容，支持正则表达式 flag: 正则库re中的标识，比如re.IGNORECASE findall和find的区别是支持正则表达式...5 [(amei, qq)] 上面示例返回正则查找的两个部分，并以元组列表的形式出现。...7、文本包含文本包含通过contains方法实现，返回布尔值，一般和loc查询功能配合使用，参数： pat: 匹配字符串，支持正则表达式 case: 是否区分大小写，True表示区别 flags: 正则库...参考： [1]深入浅出pandas [2]http://www.pypandas.cn/ 推荐阅读： 1.《pandas进阶宝典》终于面世了！ 2. 机器学习原创系列

1572 0

pandas 处理大数据——如何节省超90%内存

开始之前，先对比字符串和数值在 pandas 中的存储。...对比字符串和数值存储 pandas 中使用 Numpy 字符串对象表示 object，有部分是因为 Numpy 中缺乏多缺省字符串值的支持。...此限制导致字符串以碎片化的形式存储，消耗了更多内存，导致获取慢。实际上，object列的元素是存储在内存中真实值的指针。...当每一列包含有限的数据时，这非常有用。当pandas转换一列为 category 类型时，pandas 会使用最节省空间的 int 子类型表示每一列的唯一值。 ?...从上述数据中可以看到，一些列的数据只包含很少的唯一值，也就是说大多数值都是重复的。先选择一列，看看将其转换为类别类型之后会如何。使用 day_of_week 列数据，只包含了7个唯一值。

6K3 0

数据科学 IPython 笔记本 7.13 向量化字符串操作

包含的功能可以解决向量化字符串操作的这种需求，以及通过包含字符串的 Pandas Series和Index对象的str属性，来正确处理缺失数据。...Pandas 字符串方法的表格如果你对 Python 中的字符串操作有很好的理解，那么大多数 Pandas 字符串语法都足够直观，只需列出一个可用方法表即可。...几乎所有 Python 的内置字符串方法都对应了 Pandas 向量化字符串方法。...在互联网上搜索此错误的文本，似乎是由于使用了一个文件，其中每行本身是一个有效的 JSON，但完整文件不是。...这表明，在数据科学中，清理和修改现实世界的数据通常包含大部分工作，而 Pandas 提供的工具可以帮助你有效地完成这项工作。

1.6K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭