创建R中列的唯一组合的df，其中顺序无关紧要_获取按df中的另一列分组时在一列中创建的所有组合的计数，其中R中的组合长度不同_为R中的列的唯一组合创建索引 - 腾讯云开发者社区

python、python-3.x、pandas、jupyter-notebook

我有一个数据集，其中列的排序没有意义，但列的组合是有意义的。换句话说，在下面的dataframe示例中： | A | B | C | D | |---------------| | h | i | j | k | | k | j | h | k | 其中[A,B,C,D]是列标题，[h,i,j,k]是单元格值-可以认为row 1和row 2是相同的。原则上，我试图解决的问题是删除这第二行。我很熟悉：df.delete_duplicates()的用法，但是这里并不认为这两行是等价的。我认为一个可能可行的解决方案是按字母顺序对每一行进行排序，但我想不出一种方法来做到这一点。非常感谢你的帮助，

浏览 0提问于2017-04-21得票数 1

1回答

从一列中获取值并从中创建新列。

python、pandas

我有一个大的数据库，它有一个叫做“测量”的列和一个叫做“数据”的列，其中包含了关于那些不同的测量的数据，例如，我的测量--你可以找到高度、重量和不同的索引值--在数据中你会找到这个“测量”的值。我想用这样的方式来组织这个数据库:每个唯一的measurment类型，都会有它自己的列，例如，我将有列名、权重、高度等。以及从列“数据”中得到的vvalue。直到nowI以这种方式使用我的相关数据创建了许多小型数据库： df_NDVI=df[(df['Measurement'] == 'NDVI') & (df['Data']!='Cor

浏览 1提问于2020-02-16得票数 0

回答已采纳

1回答

在每行python的列表中获取唯一的字符串

python、dataframe

我有一个数据帧 dt ... contains 0 2021-03-19 14:59:49+00:00 ... [up] 1 2021-03-19 14:59:51+00:00 ... [] 2 2021-03-19 14:59:51+00:00 ... [] 3 2021-03-19 14:59:51+00:00 ... [] 4 2021-03-19 14:59:52+00:00 ...

浏览 15提问于2021-08-05得票数 1

回答已采纳

1回答

根据特定列值丢弃pandas中的半重复行

pandas

我有一个数据帧，除了一个列值之外，我有一个重复的行，如果id相同，我想删除值为"None“的行(不是所有行都是重复的) a b 1 1 None 2 1 7 3 2 2 4 3 4 我需要删除第一行，其中包含重复的(1)，并且b的值为None。

浏览 6提问于2020-12-11得票数 1

回答已采纳

2回答

使用循环根据列标准在R中创建多个数据

假设我有一个3列的dataframe。我想为每一个、几个列的唯一组合创建单独的子数据。例如，假设我们只有3列， a <- c(1,5,2,3,4,5,3,2,1,3) b <- c("a","a","f","d","f","c","a","r","a","c") c <- c(.2,.6,.4,.545,.98,.312,.112,.4,.9,.5) df <- data.frame(a,b,c) 我想为列&#

浏览 0提问于2018-10-16得票数 0

1回答

用groupby或condition对pandas进行Z得分估计

pandas、pandas-groupby

我有一个租赁价值的统计参考表，如下所示。 Sector Usage Mean_Rent Standard_deviation SE1 R 100 10 SE1 C 120 5 SE2 R 200 50 SE2 C 150 60 我还有租赁合同表，其中包含租赁合同信息 ID Sector Usage Tenancy_yea

浏览 18提问于2020-02-06得票数 0

回答已采纳

2回答

熊猫数据帧扩展函数还是类似的？

python、pandas

这是一只熊猫的df： df = pd.DataFrame({'First' : ['John', 'Jane', 'Mary'], 'Last' : ['Smith', 'Doe', 'Johnson'], 'Group' : ['A', 'B', 'A'], '

浏览 6提问于2018-07-21得票数 4

回答已采纳

1回答

基于列比较的标签计算方法

我不认为这个问题以前在这个董事会上被问过。我有两个列，1和0在一个数据。让我们将这些列分别命名为X和Y。在对任何行进行X和Y的比较中，显然有四种组合中的一种：答: 1，0 B: 0，1 C: 1，1 D: 0，0 假设dataframe有m列总计，但我们只对X和Y感兴趣。我想编写一个函数，它只比较X和Y，然后在新列中用相应的标号A、B、C或D来描述特定的组合(让我们称之为Z)。因此，假设数据看起来是： X-Y 1 1 0 1 0%0 1 1 该职能将输出： X-Y-Z 1 1 C 0 1 B 0 0 D 1 1 C

浏览 1提问于2016-04-02得票数 2

回答已采纳

3回答

在NaN中创建新列结果

python、pandas

我尝试在csv file.But中创建一个包含3列的新列，如果其中一个列值为NaN，则整个值将更新为NaN，而不是跳过它。* import pandas as pd import numpy as np df = pd.read_csv(r'C:\Users\RAHNA KM\Downloads\Accident_death.csv', skipinitialspace=True) df['Address']= df["ResidenceCity"].astype(str) +" "+ df["ResidenceCount

浏览 20提问于2019-10-23得票数 1

1回答

熊猫:用相同的值反转行

python、pandas、dataframe

我有一个DataFrame，其中行按第三列进行“分组”(一个组中的行在第三列具有相同的值)： c1 c2 c3 0 b 1 1 r 1 2 f 2 3 x 2 4 n 2 5 r 3 6 f 3 但是第二列中的值有一个错误的顺序。我需要反转每个“组”中的行，因此DataFrame应该如下所示： c1 c2 c3 0 r 1 1 b 1 2 n 2 3 x 2 4 f 2 5 f 3 6 r 3 是否有一种有效的方法将第一个DataFrame转换为使用pandas的第二个？ UPD:用更清晰的例子更新。这些值应该

浏览 4提问于2017-03-30得票数 1

回答已采纳

1回答

用R填写数据(长度不等的两列)

大家好，非常感谢你们的帮助，如上文所示，我必须将数字从A列分配到B列，这样B列中的数字4193每次都与A列中的数字1匹配，B列中的数字15每次都与A列中的数字2相匹配，以此类推(这只是我作为一个示例提供的一个随机样本，因为我正在处理一个非常大的数据集)。这应该没什么大不了的，但问题是这两列的大小不同(A列比B列大得多)。我花了好几个小时自己做这个，还浏览过论坛，但在如何解决这个问题上我没有发现任何类似的问题。而且，由于我正在处理的数据集非常大，所以我无法手动完成此操作。主要的想法是使B栏中的每一个数字与A栏中对应的数字并排重复(如前所述)。我不知道如何在计算上做到这一点，但从逻辑上讲，

浏览 3提问于2022-04-15得票数 0

2回答

使用SparkR获取特定行

r、apache-spark、sparkr

我在SparkR中有一个DataFrame类型的数据集“数据”。举个例子，我想得到第50号。在R中，我只需键入data[50,]，但当我在sparkR中这样做时，我会得到以下消息 “错误：'S4‘类型的对象不可替换” 我能做些什么来解决这个问题？此外:如何向数据中添加(列大小相同)的列？

浏览 7提问于2015-07-28得票数 3

回答已采纳

2回答

使用列名和添加列在循环中编辑几个数据帧

r、dataframe

我在一个文件夹中有10个数据集，有4列，我希望将它们作为r中的单独数据帧读入，为此，我使用以下方法： temp = list.files(pattern="*.csv") for(i in 1:length(temp)){ assign(paste("name",i,sep = ""), as.data.frame(read.table(temp[i]))) } 然后，如果我想要更改列名，并在相同的循环或不同的循环中添加一个新的列V5 <- V3**2，该如何实现呢？我在stackoverflow中看到的更改列名的其他建议建议创建一个

浏览 0提问于2019-02-17得票数 0

1回答

如何将PDF复制到基于熊猫数据的文件夹位置？

python、pandas、dataframe、if-statement

我正在尝试设置python脚本，以获取我组装的一组数据，以便基于if/then语句自动将文件从源位置移动到其他几个文件夹。理想情况下，代码应该是1.)读取dataframe并检查其中两个列是否匹配设置的文本输入2)。遍历dataframe中的每一行，以确定哪些行满足这些条件3)。读取正确行的第一列中的文本，并连接要传输到的源文件的文件位置。以下是我目前的情况： import pandas as pd import numpy as np import shutil df = pd.read_excel(r'\\KCOW00\Jobs\72046\Design\Bridges\St

浏览 1提问于2022-08-08得票数 0

1回答

如何在新列中获取所有唯一值

python、pandas、dataframe、group-by

我有一只熊猫的数据，如下所示。 DF_Old = id tID word rA rB 12 1 A N N 12 2 B O N 12 2 B H O 12 2 B O O 12 2 B N H word中具有相同tID的每个单词都是在列rA和rB中具有不同值的同一个单词。我想创建一个新的列R，其中包括列rA和rB中的所有唯一值，如下所示。 DF_New

浏览 0提问于2018-07-17得票数 2

回答已采纳

6回答

使用python pandas中的dataframe中的选定列为每行数据创建哈希值

python、hash、pandas

我已经询问了R中的关于为每行数据创建散列值的问题。我知道我可以使用像hashlib.md5(b'Hello World').hexdigest()这样的东西来散列一个字符串，但是数据帧中的一行怎么样呢？更新01 我已经起草了我的代码如下： for index, row in course_staff_df.iterrows(): temp_df.loc[index,'hash'] = hashlib.md5(str(row[['cola','colb']].values)).hexdigest() 这对我来说似乎

浏览 0提问于2014-09-10得票数 18

2回答

按列名将数据框映射到笛卡尔产品的列

python、pandas

注意:笛卡尔产品可能不是正确的语言，因为我们处理的是数据，而不是集合。它更像是“免费产品”或“文字”。有多种方法可以将数据帧转换为列表列表。 Here is one way 在这种情况下，列表列表实际上表示列的列表，其中列表索引是行索引。我想做的是，获取一个数据框，按名称选择特定的列，然后生成一个新的列表，其中内部列表是所选列中元素的笛卡尔乘积。这里给出了一个简化的示例： import pandas as pd df = pd.DataFrame([[1,2,3],[3,4,5]]) magicMap(df) df = [[1,3],[2,4],[3,5]] 使用列名： df # f

浏览 14提问于2020-12-20得票数 1

1回答

r、permutation

我是r的新手。我需要用置换来填充数据集。我已经为小数据集创建了一个，其中有4(槽)列，它可以由0到8之间的任何数字填充。它们的总和应该等于6。我需要做更大的集合，其中列(插槽=6)和序列是1到200，需要的和是100。根据上面的脚本，它花费了太多的时间。请建议一些其他的方法。提前谢谢。 library(gtools) library(dplyr) df <- as.data.frame( permutations(5,4,seq(0,8,1))) %>% mutate(sum = `V1`+`V2`+`V3`+`V4`) %>% filter(sum ==

浏览 0提问于2019-02-11得票数 1

2回答

如何将包含日期的列组合为具有唯一日期的新列？

python、pandas、dataframe、date、datetime

我有一个dataframe，它有两个日期，其中包含我想对其执行以下操作的列：连接到一个新列。获取唯一值(没有冗余日期)。 data = [ [ "2018-12-08", "2018-12-09", ], ["2020-12-19", "2020-12-20"], ["2020-12-19", "2020-12-19"], ["2020-10-06", "2020-10-12"], ] df

浏览 3提问于2022-07-12得票数 0

回答已采纳

2回答

删除R中的重复行，即使顺序不同

这感觉应该是显而易见的，但我真的没有看到！下面是我正在处理的这类数据的一个小示例： x1 <- as.character(c("Apple", "Banana", "Cat", "Dog", "Orange")) x2 <- as.character(c("Banana", "Orange", "Dog", "Cat", "Apple")) x3 <- as.character(c("Orange",

浏览 0提问于2019-01-10得票数 2

2回答

Python和Pandas:如何计算具有特定条件的列

python、anaconda

浏览 24提问于2020-07-13得票数 0

2回答

如何在R中创建运行和汇总

r、dplyr、cumsum

我想从dataframe df创建一个汇总报告，其中每一行都是基于列B的列A的累积和(其中C是另一个id列)。以下是数据和输出： set.seed(154) df <- data.frame(B = append(append(rep(1,10),rep(2,10)),rep(3,10)), C = rep(1:10,3), A = sample(0:10,30,replace=T)) %>% arrange(B,C) 输出：我写的是 df %>% arrange(B) %>% group_by

浏览 19提问于2019-07-23得票数 1

回答已采纳

2回答

为什么我不能只使用括号访问Pandas中的Dataframe中的一个元素？

python、pandas、dataframe、syntax

我理解这两种方法都是允许的：访问单个列：df['rowA'] 访问几行：df[3:5] 但是df[3:5, 'rowA']或df[7, 9]给出了一个例外(TypeError: unhashable type: 'slice')。这背后的理由是什么？

浏览 2提问于2017-12-11得票数 1

2回答

我需要将多个列组合在一起，以获得一个“分组”变量，就像在线程中一样。问题是，我希望它对字符串的类似内容是健壮的，例如 tmp1 <- data.frame(V1 = c("a", "aa", "a", "b", "bb", "aa"), V2 = c("a", "a", "aa", "b", "b", "a")) tmp2 <- data.fram

浏览 9提问于2017-07-10得票数 0

1回答

创建一个新列，根据以前的列排列数据帧顺序。

我有这样一个数据框架： A B C 1 1 1 0.4519 2 101 1 0.3819 3 201 1 0.3819 4 301 1 0.2819 5 401 1 0.9819 6 501 1 0.6819 它更大，但这是一个例子。我想创建一个名为order的新列，其中包括来自(1 until nrow(df))的一个数字，它基于C列的值(最小值为1，随着C值的增加而增加)。当C列中的值相等时，将排序准则更改为A列，当A列中的值相等时，将其更改为B列。这能在R中以一种简单有效的方式实现吗？这可以使用数据帧上的for循环来完成，

浏览 4提问于2012-05-26得票数 1

2回答

在R中是否有方法读取多个excel文件，将列更改为字符，然后合并它们？

r、loops、merge、readxl

我觉得这有一个简单的解决方案，但我想不出来。我有59个excel文件，我想合并。然而，其中4列有一个日期和NA的混合(取决于研究动物是否是移民)，所以R不允许我组合它们，因为有些是数字的，有些是字符。我本来希望把所有的excel文件都读到R中，将每个文件中的4列转换成as.character，然后将它们全部合并。我认为一个循环可以做到这一点。我在网上找到的任何东西都让我键入每个读取文件的名称，而我并不真正想对59个文件这样做。一旦我将它们读入R中并转换成这些列，我能很容易地将它们从R中合并吗？抱歉，如果这很简单的话，但我不知道该怎么做才能让事情变得更简单。

浏览 4提问于2022-12-03得票数 1

回答已采纳

3回答

重新排列数据帧以适应R中的纵向模型

r、dataframe、model、longitudinal

我有一个数据框，其中每个条目都与NHS中的一个职位发布相关，其中指定了职位发布的一周，以及该职位所在的NHS信任(和区域)。目前，我的数据帧看起来像这样： set.seed(1) df1 <- data.frame( NHS_Trust = sample(1:30,20,T), Week = sample(1:10,20,T), Region = sample(1:15,20,T)) 我想要计算每个NHS Trust每周的工作数量，并将该值分配给一个新的列‘job’，因此我的数据框架如下所示： set.seed(1) df2 <- data.frame( NHS_

浏览 24提问于2020-05-18得票数 0

回答已采纳

2回答

在Derby数据库的主自动增量键中不插入任何内容

java、database、derby

我在Derby数据库中创建了一个表，如下所示： create table "DATABASE".SOMETABLE (ID INTEGER NOT NULL GENERATED ALWAYS AS IDENTITY (START WITH 1, INCREMENT BY 1) CONSTRAINT PK PRIMARY KEY, SOMETHING VARCHAR(50) not null) 现在，我希望能够插入到该表中，而无需特别列出要插入到其中的所有列。所以我想做这样的事情： insert into so

浏览 2提问于2016-02-21得票数 1

1回答

使用固定列名透视DataFrame

python、dataframe、apache-spark、pyspark

假设我有以下数据帧： user, ticker, date u1, AAPL, 2021-07-07 u1, MSFT, 2021-07-07 u1, GOOG, 2021-07-07 u2, TSLA, 2021-07-07 u3, NFLX, 2021-07-07 u4, AMZN, 2021-07-07 根据设计，每个用户有3行。我想把我的DataFrame变成： user, ticker_1, date_1, ticker_2, date_2, ticker_3, date_3 u1, AAPL, 20

浏览 12提问于2021-07-07得票数 1

回答已采纳

2回答

如何有效地将熊猫DataFrame (与群)进行专栏化？

python、pandas

给你这个问题的背景：我有一个不错的SQL表(7200万行，6GB)，其中的数据可以理解为“基于列的”，例如： ------------------------------ | fk_id | date | field | ------------------------------ | 1 | 2001-01-02 | 24 | | 1 | 2001-01-03 | 25 | | 1 | 2001-01-04 | 21 | | 1 | 2001-01-05 | 20 | | 1 | 2001-01-06 | 3

浏览 1提问于2015-08-26得票数 1

回答已采纳

2回答

将格式为Yes/No的多个列压缩为一个描述性列

这个问题已经困扰我很长一段时间了。我总是使用for循环来解决这个问题，但我认为最终是时候找到一种更快、更优雅的方法来做这件事了。举个例子，假设我有一个数据框，其中包含一个项目是红色还是蓝色的信息。信息是这样呈现的： item.df <- data.frame(Item=seq(1,5), Red=c("Y", "Y", "N", "N", "N"), Blue=c("N", "N", "Y", "Y", "N")) 显然，这不是

浏览 0提问于2012-10-15得票数 0

回答已采纳

4回答

如何过滤列中包含特定字符串的两行之间的数据格式列？

python、pandas、string、dataframe、filter

我正在试图了解如何只选择数据rows中位于两个特定行之间的行。这些行在其中一个列中包含两个特定的字符串。我将用这个例子作进一步的解释。我有以下数据： String Value ------------------------- 0 Blue 45 1 Red 35 2 Green 75 3 Start 65 4 Orange 33 5 Purple 65 6

浏览 15提问于2022-04-21得票数 1

回答已采纳

2回答

根据另一列中的值创建新列

python、pandas、dataframe

浏览 2提问于2020-06-18得票数 0

3回答

在python pandas dataframe中将列数据从“姓氏，名字”改为“名字姓氏”

python、pandas、dataframe、split、reverse

我有python pandas dataframe，它由用于执行python脚本的power bi数据源转换支持，其中一列由lastname, firstname组成，我需要它由firstname lastname组成。我尝试了以下拆分、反转、连接方法，该方法适用于独立的字符串参数，但当我尝试对pandas数据帧中的列数据使用该方法时，会生成AttributeError: 'Series' object has no attribute 'split'。 name = 'LastName, FirstName' ' '.joi

浏览 62提问于2020-06-17得票数 2

回答已采纳

1回答

我想从现有的csv中创建一个新的csv，它由多个相同的列组成，而不是排序的数据。

我有一个CSV与这些数据： List Rank.A List Rank.B List Rank.C a 4 a 8 b 3 b 5 e 5 e 9 c 7 f 5 r 1 我想要创建一个新的csv，其中只有一个具有唯一值的名称 list 的列，并且在同一个列表中还有3列"Rank.A“、"Rank.B”、"Rank.C“。假设Rank.A没有列出任何列表，而是显示为空白。我想要这种格式的数据

浏览 0提问于2020-09-25得票数 0

2回答

检查两个不同数据帧中具有相同名称的列下的名称是否匹配的最佳代码是什么？在python中，使用熊猫？

python、pandas、jupyter-notebook

我有两个数据帧life_exp_mean_top_10和health_exp_mean_top_10，它们的列都是'country‘。我想看看预期寿命(Life_exp_mean_top_10)排名前10的国家的名称是否与政府卫生支出( health_exp_mean_top_10)排名前10的国家的名称相同。我在python 3和pandas上使用jupyter笔记本。DF1 life_exp_mean_top_10 country Andorra 79.770833 Japan 79.596078 Switzerland 78.9

浏览 16提问于2020-03-24得票数 0

2回答

转换日期格式

我有一个dataframe -其中一列包含两种不同格式的日期(d-m-Y和d/m/Y)，并且它还包含许多NAs。该列属于字符类。我想将日期的格式更改为一种格式(Y-m-d)，同时保留NAs的原样。你能帮我吗-我怎么才能在R里做呢？

浏览 10提问于2018-08-27得票数 0

2回答

matlab、matrix

我为格式和一个看似很简单的问题而道歉。我是新来的matlab和这个堆栈交换。我试图从matlab中的几个列向量中创建一个邻接矩阵。信息是从文本文件中导入的。信息看起来是这样的。 X Y Z W aa bb 1 aa bb cc 2 bb cc dd 3 cc 其中，列X和Y是顶点列的名称。Z是重量。X和Y列有关于30000条目的内容，重复。列W是按字母顺序排列的图中的所有顶点，不重复。对于示例数据，输出应该如下所示。 aa bb cc dd aa 0 1 0 0 bb 1 0 2 0 cc 0 2

浏览 0提问于2015-05-26得票数 5

回答已采纳