pandas中的矢量化列式正则表达式匹配

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

3回答

、、、、

(既不是开始也不是结束，即匹配模式'^.+{x}.+$'))) 但是，既然我不是熊猫方面的专家，那么在熊猫中似乎没有类似的简单的“矢量化”正则表达式匹配方法？第二部分此外，我想提取前导数字(1，2，...)在第一部分中产生的匹配记录中： x | y | zfoo | 1.foo-ya | 1bar | 2.bar-ga | 2 在R中</e

浏览 20提问于2020-04-26得票数 2

1回答

如何优化熊猫数据搜索？

、

我需要在Dataframe中搜索'mas‘这个词，用frase的列是Corpo，这个专栏的文本在列表中被分开，例如:我喜欢鸟-->分离的我，就像鸟。因此，我需要搜索‘马斯’在葡萄牙语弗莱斯和抓住只是‘圣诞节’之后的单词。代码需要很长时间才能执行此函数。

浏览 1提问于2018-09-18得票数 2

回答已采纳

1回答

我正在尝试为我正在从事的这个数据科学项目(对银行交易数据进行分类)创建一些新功能。例如，我有“自动支付”、“汽油”、“停车”等交易类别，我想创建一个名为“汽车”的新功能，其中任何包含这些单词的类别都将被赋予1的值(而所有其他类别将被赋予0)。我试着为"car“写一个函数，但是我不知道如何根据这个函数的结果创建一个新的特性。我觉得肯定有一种简单的方法可以做到这一点，但我对python还是个新手，在弄明白这一点上有点困难！下面是我的car函数：

浏览 0提问于2018-02-02得票数 0

回答已采纳

1回答

从熊猫系列中删除匹配多个正则表达式模式的字符串

、、、

我有一个Pandas dataframe列，其中包含需要清除的字符串，这些字符串与各种regex模式相匹配。我当前的尝试(如下所示)遍历每个模式，创建一个包含匹配的新列，然后循环遍历dataframe，在找到的匹配处拆分该列。然后删除不必要的匹配列“re”。虽然这适用于我目前的用例，但我不禁认为，在熊猫中，必须有一种更高效、更矢量化的方法来做到这

浏览 4提问于2016-07-28得票数 2

2回答

regex代码，如何解决一些数据输入错误

、、

JONdf1FARLEYWANG JOSEPHCUCULANDY df['name'].str.upper(*,)',name).group()) 这个正则表达式适用于两个df，但是，我刚刚意识到我的数据有一个输入错误。在df2<

浏览 2提问于2020-10-14得票数 0

回答已采纳

1回答

Pandas使用apply()生成特征向量

、、

我有一个具有两个特性的数据集: class (int)和content (text)。{'email':1, 'phone':0, 'curses':1,....}现在我的代码是： vectorized = data[['content', 'clas

浏览 0提问于2015-07-26得票数 0

4回答

在熊猫DataFrame的滚动切片上应用函数

、、、

我想计算2x2矩阵的行列式，它是通过在Nx2矩阵上滚动一个大小为2的窗口而得到的。我只是用行列式作为一个例子函数。一般来说，我想将一个函数应用到一个数据文件中，它是通过窗口化一个更大的数据帧来实现的。例如，这是一个2x2矩阵，我计算行列式如下所示：import numpy as np "X": [1,2],&q

浏览 0提问于2017-05-15得票数 7

回答已采纳

1回答

Dremel或它的实现(比如data )如何处理内存中的大型柱状数据布局？

、

我正在通过谷歌的。我知道它将复杂的数据转换成柱状的数据布局。由于memory没有中央元数据存储库，所以我认为它必须是内存中的。因此，当我有数十亿行时，如何处理这些数据？

浏览 4提问于2015-08-28得票数 0

回答已采纳

2回答

如何使用Pandas匹配正则表达式模式并将其替换为匹配组？

、、

我有以下Pandas系列：SC_S194_M7.CONTROLDAY10.EPI.P1_GobletSC_S106_M1.CONTROLDAY3.EPI2_Goblet 我想使用regex来提取本系列每一行中最后一个下划线之后的字符串。我能够想出与最后一个字符串匹配的正则表达式，但请注意如何在pandas系列方法中实现

浏览 18提问于2018-01-29得票数 1

回答已采纳

2回答

如何检查字符串是否是正则表达式的有效前缀？

、

，直到流中的下一个字符使其不再与Regex匹配为止。想象一下，如果我们想使用带有正则表达式的字符串-42，比如^-[0-9]+$。算法将读取第一个字符-，匹配将失败，累加器将为空。是否有方法检查字符串(例如acc)是否是潜在正则表达式匹配的前缀？就像-本身不是匹配的，但是-42是匹配的，-是有效的前缀。如果它像一个库的方式，它

浏览 5提问于2021-05-26得票数 1

1回答

基于字符串的部分匹配访问序列值

、

称其为国家/地区，ID我想获取与所选国家的值相对应的ID的值。为。例如，我希望它能够查找国家(马来西亚)的最后一行，因为它有"subang“的部分匹配，然后获得相应的ID。我试过这个： df.ID[df.

浏览 1提问于2020-06-26得票数 0

2回答

在pandas数据帧中插入sklearn CountVectorizer的结果

、、、

我有一堆14784个文本文档，我正在尝试对它们进行矢量化，这样我就可以运行一些分析。我使用sklearn中的CountVectorizer将文档转换为特征向量。我这样做是通过调用：features = vectorizer.fit_transform(examples) 其中examples是所有文本文档的数组为此，我将这些特性存储在一个pandas数据帧中。目前，我的pandas数据帧(不插

浏览 0提问于2016-11-02得票数 14

1回答

带可选组的模式

、

我有一个有团队的模式。这些组都是可选的。完全可实现的模式是：但也可以像这样==A.A++C.C+D.D-F=B++C-F在组中不可能得到行列式，例如(A组不可能)。所以我尝试了这些正则表达式：问题：如果缺少组，则不匹

浏览 5提问于2015-02-13得票数 0

1回答

data.table中的多正则表达式匹配和赋值

、、

我正在尝试匹配一个正则表达式，该正则表达式输出几个值，并将其就地分配给data.table中的几个新变量library(stringr) 当然，这是失败<e

浏览 2提问于2017-03-04得票数 3

回答已采纳

1回答

Pandas:将子字符串与字符串列表进行匹配

、

我有一个熊猫系列中所有美国城市(150k+)的列表，比如master_city = pd.Series(['Lake Ketchum', 'Arletta',District 1 1656 Union Street Glenoma 707-445-6600', '1657 Riverside Drive Redding, CA 96001']) 我想看看地址序列中的每个地址是否包含与主城市序列中

浏览 0提问于2018-10-28得票数 0

1回答

熊猫爆炸以创建新列

、、

pandas explode方法为在给定列的内部列表中找到的每个值创建新行；这是一种逐行分解。 pandas中是否已经实现了简单的列式分解，即将df转换为第二个数据帧？

浏览 14提问于2021-07-05得票数 0

1回答

在字符串向量中查找子字符串的向量的第一个匹配项(每个重复项)

我有两个字符向量x和y，前者包含后者的(潜在)子串，两者都包含重复的值。我想为x中的每个元素返回y中第一个匹配项的索引(如果存在)，其中子字符串在字符串的开头进行匹配(cf。^正则表达式中的锚点)，例如： x <- c("Halimid", "Halimid", "Callimid", "Diplid&qu

浏览 0提问于2020-11-02得票数 0

2回答

查找pandas.Series的值何时至少更改x

、、、

我有一个存储为pandas.Series的时间序列s，我需要找出时间序列跟踪的值何时变化至少x。在伪代码中： print s(0)for all t in ]t, t_max]: s* = s(t) s_last此

浏览 16提问于2019-04-18得票数 4

3回答

熊猫:检查一个字符串是否包含至少两个单词。

、

我正在使用Pandas中快速的、矢量化的Pandas方法来检查数据中的每一行是否包含--至少有一个单词来自我的list_word。True4 True6 TrueName: A, dtype: bool 问题是:如何检查每一行是否至少包含列表中的两个单词我想坚持使用str.contains，因为它比其他pytho

浏览 0提问于2016-07-27得票数 2

回答已采纳

2回答

巨蟒大熊猫: pandas.Series.str.match的凤仙石

、

如何确定列中的每个字符串是否以正则表达式的匹配开始。我发现：这几乎是我所需要的，但当字符串不匹配时，我想得到真。

浏览 3提问于2021-11-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云