Pandas中向量化字符串比较

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我目前开始使用python pandas来自动化excel操作，但在处理较大的excel文件时遇到一些速度问题。现在我试着一步一步地进行优化。我的脚本中的第二步创建了3个新列: error1、error2或error2。如果DATE2中没有信息(NaN)，则只有error1应该具有值"x“。如果在DATE2中有一个值，并且它在DATE1之后，那么只有error2应该有值"x“。如果这两个比较中没有一个命中，那么只有正确的应该具有值"x“。我现在的问题是如何向

浏览 11提问于2019-07-26得票数 0

1回答

如何将标量火花UDF转换为Pandas UDF？

、、

colVal) return "".join(charList) 当我试着把它转换成pandas_udf的时候，当我读到用向量化的UDF代替标量UDF的时候，我得到了很多与熊猫相关的问题，而我的经验却比较少。请帮助我将此UDF转换为矢量化的Pandas UDF。

浏览 4提问于2021-10-25得票数 0

2回答

向量化datetime pandas比较

、、、

我最近读了一篇很棒的文章(https://towardsdatascience.com/apply-function-to-pandas-dataframe-rows-76df74165ee4)，它建议向量化比迭代化要快得多我的当前代码有200万行，大约需要16个小时才能完成保存在pandas数据对象“DataFrame”中的以下示例： data.info() else:

浏览 22提问于2021-02-02得票数 1

回答已采纳

1回答

Python Pandas Dataframe条件If，Elif，否则

、、、

在Python DataFrame中，如果'Search‘列包含连接的、管道分隔的列表中的任何字符串，我将尝试向行应用特定的标签。我如何使用Pandas做条件if，elif，Pandas语句？我遇到的大多数示例都是比较列值==是否等于(不是我想要的)，或者执行数字比较，而不是文本字符串比较。

浏览 2提问于2015-06-04得票数 2

回答已采纳

3回答

熊猫替换/字典慢

、、、

请帮助我理解为什么Python/Pandas中的“从字典替换”操作比较慢：# Dictionary has 11269 key-value将列中的值替换为O(1)。这不是一个矢量化的操作吗？即使没有矢量化，迭代200行也只是200次迭代，那么它怎么会慢呢？下面是一个SSCCE演示了这个问题：import random # Initialize d

浏览 2提问于2017-02-01得票数 17

回答已采纳

2回答

去掉熊猫系列的方括号。*多个列表元素

、

我将pandas.series中的所有元素放在方括号中。我只需要去掉方括号。请注意，有时我们有带有2个或更多元素的list，并且必须保留它。*一些在线解决方案将其剥离为第一个指数。

浏览 9提问于2022-05-24得票数 1

1回答

改进比较熊猫数据行的for循环的性能

、、

我面临Python/Pandas的性能问题。我有一个for循环，比较Pandas DataFrame中的后续行： if df.column_A.iloc[i] == df.column_A.iloc我读过关于向量化的文章，但我不知道从哪里开始。

浏览 0提问于2018-06-27得票数 2

回答已采纳

4回答

我如何分割一个numpy字符串数组中的每个元素？

、、、、

Numpy有一些非常有用的，它将常规的Python操作向量化。numpy.char.sliceStr(a, slice(1, 3))在

浏览 0提问于2016-08-19得票数 19

回答已采纳

1回答

熊猫矢量化:系列的真值模棱两可

、

我目前正在尝试应用使用Pandas的矢量化概念。我已经成功地使用了粗循环，但是在相同的代码中，当我试图向向量化并将整个系列传递给一个函数时 ValueError: The truth value of a Series is ambiguous.

浏览 0提问于2021-04-14得票数 1

回答已采纳

1回答

从Pandas Series创建Python Spacy NLP对象的最佳方法

、、、

我想从存储在Pandas数据框列中的25万字符串对象中创建Spacy nlp对象。有没有办法优化下面的“应用”方法，也就是说，有没有办法向量化spacy nlp对象的调用？import pandas as pd df = pd.DataFrame({"id": [1, 2,

浏览 18提问于2020-07-23得票数 1

回答已采纳

1回答

熊猫性能比较应用于地图

、、、

我正在比较使用map和apply计算Dataframe列的简单乘法的性能申请版本：import numpy as np # CPU times: user 1.64 s, sys: 180 ms, total: 1.82 s # Wall

浏览 0提问于2019-08-23得票数 4

回答已采纳

1回答

NumPy -以矢量化的方式测试等式，包括np.nan、np.nat、np.NZERO和np.PZERO

、、

我基本上想在Numpy中编写一个矢量化函数，它将按元素对二进制表示和所涉及数组的数据类型进行比较。下面需要Pandas (我不想这么做)，他们会制作NaN == NaT。我可以将np.isnat添加到问题1中，但这不能比较对象的精度。

浏览 0提问于2018-04-23得票数 1

回答已采纳

1回答

pandas中的矢量化自定义函数未按预期工作

、、、、

if type(item)==type(1): else: return np.nan dataframe对象有一个包含数字和字符串数据的列，我希望将字符串更改为np.nan，同时保持数字数据不变。df['Energy Supply'].apply(clean_string) 但是当我尝试使用矢量化时，所有列项目的值都更改为np.nan df['Energy Supply'] = clean_string我相信这是因为clean_stri

浏览 5提问于2020-06-17得票数 2

回答已采纳

3回答

数列与数据的布尔比较(按元素计算)

、

在这里，按元素(和条件)比较系列和数据： columns=['A','B']) 我可以使用一个缓慢的for循环来实现这一点，但我确信有一种方法可以将其矢量化

浏览 3提问于2022-10-13得票数 1

回答已采纳

2回答

矢量串距

、、、

我正在寻找一种方法，以一种矢量化的方式计算两个Pandas数据栏之间的字符串距离。我尝试了距离和文本距离库，但是它们需要使用df.apply，这是非常慢的。您知道只使用列操作有字符串距离的方法吗？

浏览 0提问于2022-02-22得票数 -1

回答已采纳

2回答

将列类型更改为int64 pandas geopandas最佳实践

、、、

我正在尝试将包含仅以.0作为小数的浮点数的列转换为integer64。我在这个论坛上发现了一些旧的，但它们似乎不再起作用了。最终我使用了：我想知道这是不是熊猫的最佳实践，与相比又如何？

浏览 4提问于2018-02-16得票数 1

回答已采纳

1回答

Pandas序列识别连续辅音的个数

、、、

给定一个字符串的Series，我试图计算一个新的Series，它包含原始字符串中最高的连续辅音计数，忽略空格。gerald lambeau 24 mike krzyzewski 5 在pandas: max_consonants('mike krzyzewski') Out[3]: 5 我知道可以使用pd.Series.apply在Series上使用max_consonants函数，但它不是

浏览 11提问于2019-08-27得票数 0

3回答

检查单元格的值是否在另一个单元格的列表/集中

、

England}6 Spain {Portugal, Spain, Italy} 有没有一种快速(矢量化)检查country是否在countries集合中的方法？因此，我正在寻找一个使用Numpy或本地Pandas矢量化方法的解决方案。我想到了Numpy的np.isin()或np.in1d()，但它们不适合，因为它们假设要比较的值集是唯一的、常量的，而不是每行一组值。

浏览 0提问于2018-08-17得票数 0

回答已采纳

1回答

numba:使用字符串输入/返回向量化函数

、、、、

我有一个样例函数，我想用numba向量化它：def test(x: str):和一只熊猫数据帧：现在，如果我想调用该函数有没有可能用字符串输入来向量化

浏览 0提问于2020-11-30得票数 1

2回答

获取pandas数据帧列表条目中的数字条目

、、

我有一个包含多个列的pandas数据帧，其中一个是我使用split命令拆分成列表的字符串： df['split_string_counts'][idf] = len(i)现在我想对for语句进行矢量化，因为在Pandas.Series包中没

浏览 24提问于2018-12-13得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云