匹配dataframe列中的精确字符串_匹配dataframe -R中的两列_匹配给定字符串中的精确数字 - 腾讯云开发者社区

我正在尝试将包含特定单词的数据文件中的所有句子转换成一个新的数据格式。我真的不知道如何做到这一点，但我尝试的第一步是检查列中是否有一个单词。 > "quality" %in% df$text[2] [1] FALSE > df$text[2] [1] "Audio quality is definitely good" 为什么输出是假的？另外，对于如何创建新的dataframe，您有什么建议吗？举个例子，我想拥有一个包含c("word1"，"word2")所有单词的dataframe。先谢谢你。

浏览 1提问于2020-05-24得票数 0

回答已采纳

2回答

在Pandas中创建一个年度专栏

python、regex、pandas

我正在尝试创建一个年份列，其中的年份来自于我的dataframe中的title列。此代码可以工作，但列dtype是object。例如，在第1行中，年份显示为2013年。我如何才能做到这一点，但将列dtype更改为float？ year_list = [] for i in range(title_length): year = re.findall('\d{4}', wine['title'][i]) year_list.append(year) wine['year'] = year_list 这是我的数据中心的头： co

浏览 0提问于2019-03-01得票数 2

回答已采纳

1回答

python使用regex创建新列

python、regex、python-3.x、pandas

我正在尝试从Python dataframe中的现有列创建一个新列。下面显示的表格是示例数据，希望通过从列Col2中提取特定文本来添加新的列。下面是我正在使用的正则表达式，它遍历各行以计算新的列值。我正在寻找甚至可以在Col2中处理空单元格的正则表达式。 "A-Z*A-Z.{9}“ 有没有人能告诉我更好的方法？

浏览 12提问于2019-11-21得票数 1

回答已采纳

1回答

使用R中的$ vs括号[]从dataframe提取列

r、subset、extract

我有一个函数，我需要提取一个列，当我使用dataframe$column1i时，这个函数返回一个错误，但是当我使用dataframe，column1时，它会工作。为什么我不能只使用dataframe$列与dataframe，列？ function1 <- function(data, x, y) { data <- arrange(data, x) ylist <- NULL for(i in 1:nrow(data)){ x0 <- data[, x][i]

浏览 1提问于2021-12-12得票数 1

1回答

如何使用Pandas中的多列应用一些计算？

python、pandas

我试图根据价格和pack_count列的数据来计算单位价格。 import pandas as pd # assign data of lists. data = {'price': ['23', '', '211', '100'], 'pack_count': [23, 10, 1, 1]} # Create DataFrame. df = pd.DataFrame(data) df["price_per_unit"] = (df["price"].str.rep

浏览 5提问于2022-01-10得票数 0

回答已采纳

1回答

在np.select中使用字符串条件的问题

python、pandas、numpy

我试图根据一个字符串是否包含在另一个专栏中，在熊猫数据中创建一个新的列。我使用基于这个np.select的。下面是一个示例dataframe和一个创建新列的示例函数 df=pd.DataFrame({'column':['one','ones','other','two','twos','others','three','threes']}) def add(df): conditions = [ ('one'

浏览 0提问于2019-04-25得票数 2

回答已采纳

1回答

我应该如何有效地按值对数据的行进行标记？

我有一个旅行的数据与一列如何使旅行类似于列"a“下面。我的目标是根据列"a“的值向每一行添加一个新的数据列。下面的功能工作，但似乎是一个过于复杂的方式，以实现一个相当简单的目标。 new_var <- 0似乎会导致一个bug。如果我不附加dataframe并以这种方式调用列，函数就不能工作，这显然不是很好。显然有更好的方法吗？ a <- c("On the Subway", "On a train", "Driving","On the Subway", "On a train"

浏览 0提问于2018-12-31得票数 1

回答已采纳

1回答

为什么pandas isin - query - loc函数找不到所有匹配的项

python、pandas、csv、dataframe

我有一个dataframe，我想根据另一个dataframe中已有的项添加一个列"exists“。使用isin函数仅根据另一个数据帧返回1个匹配项。当我将要筛选的列设置为索引时，锁定筛选器也是如此。当我像这样使用对另一个DF的列表或列的引用时，它不会像预期的那样工作： table.loc[table.index.isin(tableOther'column')，：] 在这种情况下，它只返回1项。 import pandas as pd import numpy as np # Source that i like to enrich with additional

浏览 0提问于2019-10-21得票数 0

1回答

根据多个条件按列名过滤数据

python-3.x、pandas

我有一个有很多列的熊猫数据，我想根据列名过滤数据，但是使用两个不同的标准。我尝试使用指定的项和正则表达式来实现df.filter，但这是不允许的。如果列名为“用户名”、"XYZ 1001“、"XYZ 1002”、"XYY 1001“、"XYY 1002”、"XZZ 1001“和"XZZ 1002”。我希望能够过滤dataframe，使其只包括列名等于“用户名”或包含子字符串XYZ的列。

浏览 2提问于2020-04-15得票数 3

回答已采纳

1回答

Pandas或Python方法，用于根据另一列中的字符串移除列中不需要的字符串元素

python-3.x、regex、pandas、string

我有一个问题similar to this question。我正在为一个项目导入一个大型的.csv文件到pandas中。数据框中的一列最终包含4列连接的数据(我无法控制我接收的数据)、品牌名称(我想要删除的内容)、产品描述、产品大小和UPC。请注意，Item_UPC中的品牌描述并不总是==品牌。例如 import pandas as pd df = pd.DataFrame({'Item_UPC': ['fubar baz dr frm prob onc dly wmn ogc 30vcp 06580-66-832', 'xxx stuff c

浏览 15提问于2020-08-26得票数 1

1回答

str.replace的问题

python、pandas、string、dataframe、replace

这是我正在经历的问题。 dataframe中的原始列包含与此"(Do Not Use) Healthfirst"类似的保险名称，该列的名称为"InsuranceNames"。我正在使用以下代码尝试将"(Do Not Use) "部件划分为空白，并保留保险名称： df["InsuranceNames"] = df["InsuranceNames"].str.replace('(Do Not Use) ','',regex=True) 但是当我把这个导出给csv时，“不使用”仍然存

浏览 0提问于2021-10-21得票数 0

回答已采纳

3回答

Pandas按分类间隔过滤

python、pandas

我创建了一个dataframe，并将其中一列归类为间隔： df_test = pd.DataFrame({'col': [0,1,2,3,4,5,6]}) df_test['cat']= pd.cut(df_test['col'],[-1.,0.,3.,10.]) df_test col cat 0 0 (-1.0, 0.0] 1 1 (0.0, 3.0] 2 2 (0.0, 3.0] 3 3 (0.0, 3.0] 4 4 (3.0, 10

浏览 3提问于2019-06-11得票数 3

回答已采纳

2回答

从B列中获取A列中字符串的计数，并在新列中返回值

python、pandas、dataframe

我正试着在熊猫的第二栏中计算一栏的内容。我想把频率计数放在一个叫做频率的新列中。我希望在一个名为频度的新列的Description列中找到关键字列中的字符串的次数。期望输出 [keyword] [Description] [Frequency] car car dog car car 3 car car dog dog dog 1 new car old car car dog 0 代码我试过

浏览 2提问于2020-11-28得票数 2

回答已采纳

1回答

在Pandas中，我们可以按名称和正则表达式选择列吗？

python、pandas

假设我的Pandas数据帧如下： import pandas as pd df = pd.DataFrame( dict(ID = [1, 2, 3], xz = [0, 1, 1], yz = [4, 5, 6], yx = [7, 11, 18], xy = [10, 10, 11]) ) 如果我想选择名称中包含x的所有列，我可以执行以下操作： df.filter(regex = 'x', axis=1) 如果我还想按列名进行选择，我会执行以下操作，但这将不起作用。 df.filter(ite

浏览 0提问于2020-05-23得票数 0

1回答

基于列名/字符串条件的PySpark删除列

python、apache-spark、pyspark

我希望将列放在包含banned_columns列表中任何单词的pyspark中，并从其余列中形成一个新的dataframe。 banned_columns = ["basket","cricket","ball"] drop_these = [columns_to_drop for columns_to_drop in df.columns if columns_to_drop in banned_columns] df_new = df.drop(*drop_these) banned_columns的思想是删除以basket和cricket

浏览 0提问于2018-07-16得票数 1

回答已采纳

2回答

在dataframe列中查找包含问题的行

pandas、dataframe

我有一个TSV文件，我加载到一个熊猫数据文件中进行一些预处理，我想知道哪些行在其中有问题，并在一个新的列中输出1或0。因为它是TSV，所以我是这样加载它的： import pandas as pd df = pd.read_csv('queries-10k-txt-backup', sep='\t') 下面是它的外观示例： QUERY FREQ 0 hindi movies for adults 595 1 are panda dogs real

浏览 0提问于2018-12-27得票数 0

回答已采纳

2回答

我有一个字符串"user@domain+12223334444“，我想用空格替换"+1”。如何使用str.replace命令实现它？

python、pandas、dataframe

此字符串位于dataframe列中。运行以下代码后，我将得到一个错误 patients_test["contact"] = patients_test["contact"].str.replace("+1", " ") 错误:在0位置没有重复

浏览 12提问于2022-01-16得票数 1

回答已采纳

1回答

关于查找数组中查找值的说明

excel、excel-formula

我分析了MATCH函数，并以以下方式使用该函数： =MATCH(REPT("z",4),Sheet1! G:G) 匹配函数的语法是MATCH(lookup_value, lookup_array, [match_type])，这里的查找值是REPT("z",4)，查找数组是Sheet1:G:G。 REPT("z",4)的计算结果为"zzzz“ MATCH函数给出了数字21，它对应于列G中最后填充的行。如果我填充单元格G22，则函数给出的值为22。单元格G7已经包含字符串"zzzz“。我怀疑为什么我得到21，而不是7，那里已经有一个

浏览 2提问于2016-03-25得票数 0

回答已采纳

1回答

Python Pandas日期格式为‘星期四，2019年3月3日’，希望转换为%m/%d/%y

python、pandas、datetime

我使用python pandas和datetime库将日期列中的日期从以下格式转换为：'3/3/2019‘。下面是我用来得到结果的代码，但我仍然得到一个ValueError。‘未转换的数据仍然存在’。有没有人知道解决这个问题的方法？ df_['Date'] = df_['Date'].apply(lambda x: dt.datetime.strptime(x, '%A, %B %d, %Y').strftime('%d/%m/%Y'))

浏览 0提问于2021-07-07得票数 0

1回答

在dataframe - python中查找重复的连续字符

python、regex

我有一个有名字列的csv。我的任务是找到有双字母(两个连续的字母重复)的名字。如果名称中包含双字母，则需要在Dataframe中为TRUE创建列，如果不包含，则为FALSE。我相信((\w)\2{1，})有必要的正则表达式，但是当我试图将它添加到Dataframe时，新列是空的。 df['repeat'] = df['Name'].str.findall('((\w)\2{1,})')

浏览 2提问于2021-07-03得票数 1

回答已采纳

2回答

将所有字符串替换为DataFrame中的默认值

python、pandas

我有一个数字的熊猫DataFrame (int和floats)，它为所有列生成一个浮点数的数据类型。或者我是这样想的。这些表是OCR扫描EXCEL的结果。在某些情况下，由于扫描不好，会出现ascii或word值。如何对所有列、DataFrame中的所有值执行默认的str值-999999？我遇到的问题是pd.replace()函数似乎是特定于字符串的。谢谢!

浏览 0提问于2018-04-20得票数 2

回答已采纳

5回答

在/List中搜索多个单词

python、pandas、algorithm、dataframe、search

我有一份清单： list = ['United Kingdom', 'Berlin', 'italy'] 和一个DataFrame： location 0 London, United Kingdom 1 BerlinGerman 2 Rome,Italy 所以这里我需要做的是在dataframe中创建一个新列，它只包含列表中的单词。因此，新列应该如下所示： location new_col 0 London, United Kingdom United Kingdom 1 BerlinGerma

浏览 5提问于2020-07-14得票数 1

回答已采纳

1回答

PowerBuilder下拉数据窗口插入更改显示列值

powerbuilder、datawindow

使用PowerBuilder 11.5。我有一个数据窗口(dw)使用下拉数据窗口(dddw)。我在dw的构造函数中执行dddw.insertrow (0)，然后执行dw.insertrow()。我遇到的问题是，dw中dddw控件的“显示列”的值在某个时候被更改为“数据列”的值，也就是说，结果应用程序显示的是数据(主键)，而不是格式化的字符串值(我选择的“显示列”)。在插入和检索调用之后，我还将检索"Display Column“属性的值，并且它仍然定义为我最初设置的值(即不变)，但是当显示数据时，将显示"Data Column”值。你知道为什么会发生这种事吗？谢谢

浏览 6提问于2012-09-18得票数 1

1回答

熊猫:使用Regex清除包含单引号和括号的字符串列？

python、regex、pandas、dataframe

我想清除下面的Pandas dataframe列，但是在下面的代码中，我试图用一条简单有效的语句来实现它。输入： string 0 ['string', '#string'] 1 ['#string'] 2 [] 输出： string 0 string, #string 1 #string 2 NaN 代码： import pandas as pd import numpy a

浏览 5提问于2021-02-09得票数 2

回答已采纳

1回答

熊猫:将一行字符串分隔成4列；问题:列由逗号、制表符和空格分隔。

python、pandas

我有一个文本文件，我试图将一行的条目分离到一个新的列中。一行如下所示： 12:00，信息“这里有18个空格”ABC一些text< 我是这样开始的 table = pd.read_table(file, sep=',', names=['Time', 'ID']) 现在我有了一个带有2列的Dataframe : Time和ID，但是我如何分离"ID“列呢？特别是当条目被制表符和空格分隔时。非常感谢!

浏览 3提问于2020-10-11得票数 2

1回答

当提取()很好的时候，我得到了完全匹配()中的属性错误。

python、pandas

我使用熊猫Series.str.extract(模式)和Series.str.fullmatch(模式)来检查序列中的值是否存在于模式中。Extract()运行良好，但fullmatch()给我的是AttributeError。 import pandas as pd data = {'col1': ['aa', 'aabc', 'ee']} df = pd.DataFrame(data) print(df) pat_data = {'name': ['aa', 'bb', &#

浏览 7提问于2022-07-15得票数 1

1回答

如何在pandas.Series.str.replace()中使用regex

python、regex、pandas

我试图用pandas.Series.str.replace()方法替换字符串的特定部分，使用regex来定义我想要更改的部分，根据您可以使用正则表达式甚至re.compile对象的文档。我不知道我做错了什么，但我似乎完全抹去了，而不是替换字符串的一部分。因此，在我的DataFrame中，假设我有一个名为“dates”的列，它的格式如下： '2016-03-26 17:47:46' 我只想获取破折号、空间和时间(将8位数字作为日期)，然后将它们替换为“希望留下20160326”，因此我创建了一个re.compile对象来抓取这些数据： re_express = re.compi

浏览 0提问于2018-10-22得票数 1

4回答

在R中data.frame中的奇怪行为下降柱

r、dataframe

在从data.frame中删除列时，我遇到了一种奇怪的行为。最初我有： > a <- data.frame("a" = c(1,2,3), "abc" = c(3,2,1)); print(a) a abc 1 1 3 2 2 2 3 3 1 现在，我将a$a从data.frame中删除 > a$a <- NULL; print(a) abc 1 3 2 2 3 1 正如预期的那样，我的data.frame中只有data.frame列。但奇怪的部分开始了，当我试图引用已删除的列a时。 > print(

浏览 6提问于2017-01-24得票数 1

回答已采纳

2回答

VBA中for循环中的If语句

vba、excel

我正在尝试搜索一个列(在我的例子中是第3列)，看看它是否将字符串传递到函数提取。当If语句命中时，它将从同一行的另一列复制文本(在我的示例中为第6列)，并退出For循环。函数中的For循环是扫描第3列中的所有行。为了检查是否匹配，我使用了VBA中可用的工作表函数。 Function Extract(x As String, Y As Integer) As String Dim i As Integer For i = 2 To Y If Application.WorksheetFunction.IsNumber(Application.Worksheet

浏览 1提问于2016-12-30得票数 0

回答已采纳

2回答

如何使用python中的DataFrame生成的结果写入csv？

python、csv、pandas

我正在使用DataFrame从Pandas模块读取tsv文件中的数据。 df = pandas.DataFrame.from_csv(filename, sep='\t') 该文件大约有5000列(4999个测试参数和1个结果/输出值)。我遍历整个tsv文件，并检查结果值是否与预期值匹配。然后，我将该行写入另一个csv文件中。 expected_value = 'some_value' with open(file_to_write, 'w') as csvfile: csvfwriter = csv.writer(csvfile, del

浏览 3提问于2016-11-29得票数 0

回答已采纳

1回答

删除其中一列中"$-“的dataframe中的所有行

我有一个包含美元金额列的dataframe。我需要删除列中包含"$-“的所有行。我尝试将列更改为一个因子，将"$-“替换为NA和0。我使用的所有代码要么不做任何操作，要么删除所有值。 df$bal<- sub("$-","",df$bal) is.na_remove <- df$bal[!is.na(df$bal)] df[df==""]<-0 df$bal<- lapply(list, function(df) df[df$bal=="$-"]) df$bal<- gsub(

浏览 0提问于2019-07-25得票数 0

回答已采纳

2回答

DataFrame中包含子字符串的行数

regex、scala、apache-spark

我尝试了这个解决方案来测试子字符串中的字符串是否： val reg = ".*\\[CS_RES\\].*".r reg.findAllIn(my_DataFrame).length 但是它不起作用，因为我不能将findAllIn应用到Dataframe。我尝试了第二个解决方案，我将我的DataFrame转换为RDD。 val rows: RDD[Row] = myDataFrame.rdd val processedRDD = rows.map{ str => val patternReg = ".*\\[CS_RES\\].*

浏览 1提问于2018-06-28得票数 0

回答已采纳

1回答

从html代码中提取年份内容并将其保存为dataframe。

python-3.x、regex、pandas、dataframe

给出一节名为li的html源代码，如下所示： [<li>Project construction cycle</li>, <li> Start date: 2019... Completion date: 2021... <a class="login-btn" href="javascript:">Click to view details</a> </li&g

浏览 3提问于2020-07-07得票数 0

回答已采纳

1回答

火花放电数据的模糊搜索

python、pyspark、fuzzywuzzy

我有一个大型csv文件(>9600万行)和七列。我想对其中一个列进行模糊搜索，并检索与输入字符串相似程度最高的记录。这个文件是由spark管理的，我通过pyspark将它加载到一些dataframe中。现在，我想使用像fuzzywuzzy这样的方法来提取与最佳匹配的行。但是，fuzzywuzzy函数提取返回一些我无法使用的内容： process.extract("appel", df.select(df['lowercase']), limit=10) 结果：[(Column<'lowercase'>, 44)] df是pys

浏览 9提问于2022-09-27得票数 0

1回答

如何在linux中使用awk命令获取与特定值匹配的列的记录计数

linux、csv、awk

我必须从输入的csv文件中显示与"CD“匹配的列的记录计数。值CD出现在我的文件input.csv的第二列中。我正在尝试下面的命令，但它没有像预期的那样工作。 awk -F',' '$2=/CD/ { count++ } END { print count }' input.csv 我的输入数据： 1234,CD,xyz,abcd 01235,AB,kasdjk,aaaaa,fff 898,CD,laklksas,lsjdjdj,lkjsaj 111,CD,lkakskaks,jjjjjj 3455,00,ksajkjsa,kkkkk 59995,99

浏览 2提问于2015-07-14得票数 1

回答已采纳

2回答

将所有值字符串列数据帧与其他数据帧字符串列进行匹配

python、pandas

我有两个熊猫数据帧：数据帧1： ITEM ID TEXT 1 some random words 2 another word 3 blah 4 random words 数据帧2： INDEX INFO 1 random 3 blah 我想要将( dataframe 2的) INFO列的值与dataframe 1的TEXT列进行匹配。如果匹配，我希望看到一个新的列带有"1“。如下所示： ITEM ID TEXT MATCH 1 some random words

浏览 8提问于2020-03-11得票数 1

回答已采纳

3回答

如何在python中部分匹配列表并在数据帧中写入匹配字符

python、pandas、dataframe

我有两个数据帧df1和df2。我希望匹配这两个值，以便df两个值与df1的一列相匹配，并显示在一行中。这是我做的一个样本数据 import pandas as pd # initialize list of lists data = [["AA", 'ABC_111' ], ["BB", 'ABC_112'], ["CC", 'ABC_113']] data1= [['ABC_111_12'], ['ABC_112_45'], ['ABC_112_89

浏览 7提问于2021-12-09得票数 0

2回答

在dataframe单元格中搜索列表列表

pandas、dataframe

我有一个由2列错误和注释组成的dataframe，我的错误列将包含每个单元格中的字符串列表。在编写代码时，我需要帮助来搜索数据格式，并找到该行的注释，其中我的dataframe错误内容与用户输入的val1匹配。我尝试过给定的代码，但它给出的错误长度不匹配。 df.loc[df['Error'].values == val1, 'Comments'] 其中df是包含“错误”和“注释”列的数据 df Error Comments ['My data1','My data2']

浏览 0提问于2019-06-25得票数 1

回答已采纳

1回答

如何在熊猫中搜索多个多词短语？

python、pandas

我有一些JSON数据转换成一个熊猫DataFrame。我希望找到其字符串内容匹配多词短语列表的所有列。我正在使用大量的Twitter JSON数据 (因此Twitter API的使用不适用)。这个JSON被转换成一个Pandas DataFrame。其中一个可用的列是text，它是tweet的主体。一个例子是 We’re kicking off the first portion of a citywide traffic calming project to make residential streets more safe & pedestrian-friendly, next

浏览 11提问于2019-07-29得票数 0

1回答

Spark SQL -仅匹配数字的正则表达式

regex、dataframe、apache-spark、pyspark、apache-spark-sql

我正在尝试确保dataframe中的特定列不包含任何非法值(非数字数据)。为此，我尝试使用使用rlike的正则表达式匹配来收集数据中的非法值：我需要收集包含字符串字符、空格、逗号或任何其他不像数字的字符的值。我试过了： spark.sql("select * from tabl where UPC not rlike '[0-9]*'").show() 但这不管用。它产生0行。任何帮助都是非常感谢的。谢谢。

浏览 155提问于2020-02-10得票数 6

回答已采纳

2回答

在完整数据中查找excat字符串

python、regex、pandas、dataframe

我正在数据like中搜索一个字符串，并希望得到列标题的列表，在那里发生这个excat字符串。我的数据是： df ColumnA ColumnB ColumnC apple app appl banana app banana 现在我想搜索：apple和我应该返回： ColumnA 如果我搜索banana，我应该得到： ColumnA ColumnC 如何获得列标题，其中字符串位于dataframe中？

浏览 4提问于2019-09-30得票数 0

回答已采纳

3回答

基于其他数据中列的值选择R数据中的列

r、string、dataframe

我有两个数据，如下所示。 #Dataframe 1 colname value col1 0.45 col2 -0.2 col3 -0.4 col4 0.1 #Dataframe 2 col1 col2 col3 col4 1 5 9 5 45 29 43 9 34 33 56 3 2 67 76 1 我要做的是首先选择值> 0.3或值< -0.3的dataframe 1的所有列。我想要的第二件事是从与此条件匹配的dataframe 2中选择所有列。因此，应

浏览 8提问于2020-01-03得票数 0

回答已采纳

1回答

Str.contain中所有值NaN的列的Pandas中

python、pandas

我正在通过读取PDF文件生成一个Dataframe。读取文件时，可能会发生其中一列只包含NaN值的情况。我需要在所有列中搜索字符串，但在列上运行str.contains，其中包含AttributeError: Can only use .str accessor with string values!中的所有NaN结果。下面的代码会导致错误。但是，将其中一个NaN值更改为字符串，它就可以工作。我怎么才能避开这一切？ d = {'col': [np.nan, np.nan, np.nan, np.nan, np.nan]} df = pd.DataFrame(data=d)

浏览 0提问于2020-07-23得票数 1

回答已采纳

2回答

获取在整个DataFrame上匹配条件的所有值

python、pandas

给定一个具有许多列和数百万行的非常大的DataFrame，如何提取与给定条件匹配的所有值集。对于我的用例，条件是值在括号中--即，'(example)'将是一个应该与条件匹配的值，但'(example'不应该。最小可重现性示例： df = pd.DataFrame({'A': ['1', '(2)', '3', '(4', '(5)'], 'B':['a', 'b', '(c)', 'd'

浏览 4提问于2021-08-31得票数 1

回答已采纳

2回答

比较两种数据结构的相似性

algorithm、comparison、computer-science、equality、fuzzy

我正在尝试寻找一种算法来检查两个数据条目之间的相似性。假设我有两个数据结构(联系人列表中的字段)，其中包含以下数据： // UserA addressbook. name: Frank Sinatra mobile: +44 555 555 555 55 // UserB addressbook. name: Frank Albert Sinatra phone: 004455555555555 我从不同的供应商那里得到了这些条目，UserA同步了他的谷歌账户，而UserB同步了他的微软账户，但我想让我的算法告诉我，这两个用户都认识同一个人(以一定的概率)。有没有人知道我应该去哪里调查？我

浏览 0提问于2013-11-29得票数 0

1回答

在比较值时，将一个数据框中的字符串添加到另一个数据框的新列中

python、python-3.x、pandas、list、dataframe

我想检查一个dataframe中的列中的值是否存在于另一个dataframe的列中。如果存在，则将该值添加到第二个dataframe中同一行的新列中。所有值都是字符串值。两个数据帧的大小不同。第二个数据帧也有大约70万条记录。因此，我拥有的数据帧： DF1 THINGS book+pen CAR chair laptop DF2 Description I want a new book. I will pen down this things A quick ride in my new car. Cars are awesome. My laptop's memory is b

浏览 1提问于2020-12-08得票数 2

2回答

Mysql REGEXP如何进行精确匹配

mysql、regex

我有一个notes列，其中包含文本，并且在文本中有一个id，类似于“一些随机文本(actvityid - 1234)” 在本例中，我需要取出id1234并更新同一个表中的activityid列。我的查询如下所示 "UPDATE table_name SET activityId = {$f['activityId']} WHERE notes REGEXP '{$f['activityId']}' " 这样做的问题是，例如，如果$f' activityid‘是34或123，它仍然会用该值更新activityid列。我如何

浏览 4提问于2010-06-22得票数 3

回答已采纳

2回答

在不完全匹配的时间戳上合并两个pandas数据帧

python、pandas、merge、time-series、dataframe

我试着在网站上搜索实现这一点的好方法(也尝试了一些关于装箱和时间序列的想法)，但仍然找不到合适的解决方案。问题就在这里我有两个数据帧： index name time price 1, AAA, 11:37:09.359479, 58.480000,10 2, ABC, 11:37:15.403268, 0.5000000,3 3, ABB, 11:37:15.491515, 0.4500000,2 4, AAA, 11:37:15.604864, 0.5000000,1 5, ABC,

浏览 1提问于2015-08-15得票数 2

1回答

熊猫系列值间的不敏感匹配和部分匹配

python、pandas、numpy、np

我有下面的操作来添加一个状态，显示一个dataframe列的列中的任何字符串都在另一个dataframe的指定列中。看起来是这样的： df_one['Status'] = np.where(df_one.A.isin(df_two.A), 'Matched','Unmatched') 如果字符串大小写不同，这将不匹配。是否可以在不区分大小写的情况下执行此操作？此外，当df_one.A中的值以df_two.A的完整字符串结尾时，是否可能返回“匹配”？例如df_one.A abcdefghijkl -> df_two.A ijkl =

浏览 9提问于2017-07-07得票数 4

回答已采纳

2回答

在Python if语句中使用regex

python、regex

我正在尝试弄清楚如何将regex合并到python if语句中。我有一个pandas dataframe，我在其中遍历行，并希望每次行具有特定的文本组合时执行一个操作。正则表达式应匹配以大写字母开头的任何7个字符串，后跟6个数字(即R142389) for index, row in df1.iterrows(): if row[4] == REGEX HERE: Perform Action 我这样做对吗？任何帮助都将不胜感激！

浏览 0提问于2018-01-12得票数 0

回答已采纳