如何检查数据帧中缺少行的位置？_在数据帧中插入缺少的行_选择不同数据帧中缺少的行 - 腾讯云开发者社区

python、pandas

我试图用以下代码从1400行数据帧中删除缺少值(NaN)的行： df.dropna(axis=0) 尽管dataFrame总共有600个缺失值，但生成的数据帧根本没有行！据我所知，dropna()会删除至少有一个缺失值的行。总共有600个缺失值，所有行都被删除了，这是怎么可能的？

浏览 4提问于2020-05-07得票数 0

1回答

R在数据帧中添加72行"NA“条目

因此，正如标题所说，R是在数据帧中随机添加一行"NA“条目。这只发生在我索引它的时候。所以像这样的一行： data[data$subject_code==1,] 将生成我想要的所有数据，但最后有72行，它们看起来都是这样的： NA.8 NA NA NA 为什么会发生这种情况？它不会使任何sense...there不是在整个数据帧中具有值"NA“的单个条目。

浏览 0提问于2014-03-04得票数 0

1回答

迭代pyarrow._flight.FlightStreamReader

python、pyarrow、dremio

假设它是一个pyarrow._flight.FlightStreamReader对象，我该如何遍历reader呢？可从以下地址获取 reader = client.do_get(flight_info.endpoints[0].ticket, options) 整个example.py脚本都来自https://github.com/dremio-hub/arrow-flight-client-examples/blob/main/python/example.py 目前，我尝试使用reader.read_pandas()，以便它可以为整个Dremio结果生成一个数据帧。不幸的是，如果查询超过

浏览 44提问于2021-05-01得票数 2

2回答

如何按列值在数据帧列表中选择行

我有一个包含四个数据帧的列表(Lfs01)，每个数据帧都有不同数量的列和行。我想通过一列中的值(如果是== 1)过滤所有数据帧中的行。变量在前两个数据帧中称为"a“，在最后两个数据帧中称为"A”。我以前看过类似的问题，但不幸的是，我没有找到解决办法。以下是我尝试过的一些事情： data<-lapply(lfs01, function(x) filter(x ,'a'==1)) data<-lapply(lfs01, function(x) filter(x ,'a'==1|'A' ==1)) 结果:列出4个0行

浏览 3提问于2019-12-01得票数 1

回答已采纳

2回答

如何在R中转换数据帧

r、tidyr

我有一个数据框 newDF<-data.frame(type=c(rep("A",4), rep("B",2),rep("C",3), rep("D",4),rep("E",4)), cluster=sample(1:4,17,replace=T), count=sample(1:20, 17, rep=T), sum=sam

浏览 0提问于2015-06-16得票数 0

1回答

查找数据文件列表中同一列中的所有重复值并将其转换为空

r、list、dataframe

我有一个包含数百个数据帧的列表BELGIAN_COAST_list (df1，df2，.)15列X 1000行。每个数据帧的最后一列称为Chemicals，包含一些字符，如硫酸盐或氨。但是，由于测量设备的技术问题，本列Chemicals的许多行都在每个数据帧中重复。我希望将重复的字符转换为NULL，以便它们在我列表的每个df的整个列中只出现一次。我试着unlist我的BELGIAN_COAST_list然后 BELGIAN_COAST$Chemicals[duplicated(BELGIAN_COAST$chemicals)] <- "" 在这种情况下，字符将只在

浏览 1提问于2021-02-09得票数 0

回答已采纳

1回答

对anova摘要的名称数据框架

r、dataframe

很抱歉，如果这已经得到了回答，但我发现很难得到答案，我的R问题！我的问题是如何以一种有用的方式存储多个anovas的结果。我正在使用'aov‘对数据帧的子集执行anovas，一次比较两个数据帧，使用以下功能： doAnova = function(first, second) { aov(number ~ factor1+factor2, data=rbind(first, second)) } 这是用来比较每一个子集与一个“基本”案例，以检查显着性差异。为了在多个数据集上执行此操作，我在一个循环中使用它： for (name in names) { result

浏览 1提问于2012-03-08得票数 0

回答已采纳

2回答

朱莉娅DataFrame第一行数据被用作列名。

csv、dataframe、julia

我有没有头的csv文件： 20150409，15.47，15.77，15.07，15.15,31116 因此，当我用文件创建数据帧时，第一行数据就会变成数据帧的列名。我想知道如何为已经存在的列(日期、关闭、高、低、打开、卷)创建带有名称的数据框架，或者至少如何插入新的名称行，并在创建数据帧之后将数据插入数据帧的正文中。感谢任何能帮忙的人！解决方案谢谢伊斯梅尔，我最后用的是： df = readtable(file,names= [symbol("date"),symbol("close"), symbol("high")

浏览 0提问于2015-12-20得票数 4

回答已采纳

2回答

如果pandas数据帧中有一列缺少数据，则删除一组行

python、pandas

我有以下数据帧： df Group Dist 0 A 5 1 B 2 2 A 3 3 B 1 4 B 0 5 A 5 如果Group列等于零，我会尝试删除所有与Dist匹配的行。这将删除第4行： df = df[df.Dist != 0] 但是，我还想删除第1行和第3行，因此只剩下： df Group

浏览 15提问于2021-01-19得票数 0

回答已采纳

6回答

在数据框的选定列中包含NA (缺失)值的行子集

r、csv、dataframe、subset、na

我们有一个来自CSV文件的数据帧。数据框DF具有包含观察值的列和包含测量日期的列(VaR2)。如果未记录日期，则CSV文件包含值NA，表示缺少数据。 Var1 Var2 10 2010/01/01 20 NA 30 2010/03/01 我们希望使用subset命令来定义一个新的数据框new_DF，以便它只包含具有来自列(VaR2)的NA'值的行。在给定的示例中，只有第2行将包含在新DF中。该命令 new_DF<-subset(DF,DF$Var2=="NA") 不起作用，则生成的数据框没有行条目。如果在原始CSV文件中，用NULL交换值NA

浏览 0提问于2011-11-02得票数 105

1回答

在时序数据中插入缺少的行

r、dataframe、timestamp

我有一个不完整的时间序列数据帧，并且我需要为丢失的时间戳插入NAs行。每天应该有6个时间戳，这由数据帧中的变量"Signal“(1-6)表示。我正在尝试将不完整的数据帧A与包含所有信号的向量B合并。简化的示例数据如下： B <- rep(1:6,2) A <- data.frame(Signal = c(1,2,3,5,1,2,4,5,6), var1 = c(1,1,1,1,1,1,1,1,1)) Expected <- data.frame(Signal = c(1,2,3,NA, 5, NA, 1,2,NA,4,5,6), var1 = c(1,1,1,NA

浏览 26提问于2019-12-20得票数 0

回答已采纳

1回答

在R中的循环中创建多个数据帧

r、loops、dataframe、subset

我是R的新手，我不知道如何在循环中创建多个数据帧。例如:我有一个20行4列的数据框" data“： Data <- data.frame(matrix(NA, nrow = 20, ncol = 4)) names(Data) <- c("A","B","C","D") 我想选择列T中的值与X的向量元素最接近的数据行。 X = c(X1,X2,X3,X4,X5) 最后，我想将它们分配到一个单独的数据框中，并与其关联的X名称： for(i in 1:length(X)){ data_X[i] <- da

浏览 8提问于2020-02-10得票数 0

回答已采纳

3回答

如何处理spark sql中缺少的列

scala、apache-spark、apache-spark-sql

我们正在处理无模式的JSON数据，有时spark作业会失败，因为我们在spark SQL中引用的一些列在一天中的某些时间内不可用。在这些小时内，spark作业失败，因为所引用的列在数据帧中不可用。如何处理这种情况？我尝试过UDF，但是我们缺少太多的列，所以不能真正地检查每一列的可用性。我还尝试在更大的数据集上推断模式，并将其应用于数据帧，期望缺少的列将用null填充，但模式应用程序失败并出现奇怪的错误。请给出建议

浏览 5提问于2018-08-10得票数 2

1回答

计算data.frame上的字符位置

如何更改行上的值，以特定字符的位置为函数？我想用行将行中所有NA值替换为0，这些值在行S之前。在这个特定的字符S之后，必须保持行上的NAs。 S是数据按行结束的标记。在S: NA之前应该是值(实际上是零值!!)。在S: NA保持NA之后，根本没有值。数据帧的一个示例在这里可用，。我试过这个循环 for (i in 1:length(df)) { x <- pos = 's' ; y <- pos = i if (y < x) { if (y == "NA"){ replace(y,0) } } } 也许用which函数..。

浏览 2提问于2018-12-07得票数 0

回答已采纳

1回答

将pandas数据帧插入到SQL

python、pandas、dataframe、pymysql

我有10,000个数据帧(它们都可以转换为JSON)。每个数据帧有5,000行。所以，最终我想要将相当多的数据插入到我的AWS RDS数据库中。我想将它们插入到我的数据库中，但我发现使用PyMySQL的过程有点太慢，因为我遍历每一行并插入它们。第一个问题，有没有一种方法可以直接将整个数据帧插入到表中。我尝试在dataframe库中使用"to_sql“函数，但它似乎不起作用，因为我正在使用Python3.6 第二个问题，我应该使用NoSQL而不是RDS吗？构建(大数据)结构的最佳方式是什么？非常感谢 from sqlalchemy import create_engine engin

浏览 1提问于2019-05-25得票数 0

1回答

如何计算R中数据帧中每一行的条目数？

我有许多大型数据帧，需要知道每一行中的元素数。例如，如果我的dataframe df看起来像 X Y Z A B Q R S 我希望得到以下输出矢量： 5 3 我如何在R中编码这个呢？

浏览 3提问于2018-08-16得票数 1

回答已采纳

1回答

使用一行访问Pandas数据帧中的数据

python、python-3.x、pandas、dataframe

我使用Pandas dataframes来操作数据，我通常将它们可视化为虚拟电子表格，由行和列定义单个单元格的位置。我对分割数据帧的方法很满意，但当数据帧只包含一行时，似乎有一些奇怪的行为。基本上，我希望从满足特定条件的大型父数据帧中选择数据行，然后将这些结果作为子数据帧传递给单独的函数进行进一步处理。有时，父数据帧中只有一条满足定义的标准的记录，因此，子数据帧将只包含一行。尽管如此，我仍然需要能够以与父数据库相同的方式访问子数据库中的数据。为了说明这一点，请考虑以下数据帧： import pandas as pd tempDF = pd.DataFrame({'group':

浏览 2提问于2016-04-23得票数 2

回答已采纳

1回答

如何修剪和重塑数据帧？

python-3.x、pandas

我的df如下所示： a b c d e f 1 na 2 3 4 5 1 na 2 3 4 5 1 na 2 3 4 5 1 6 2 3 4 5 如何裁剪和重塑数据帧，以使每一列的n/a都被删除，并且数据帧如下所示：编辑； df.dropna()正在删除所有行。 a b c d e f 1 6 2 3 4 5 这个数据帧有数百万行，我需要能够逐列删除n/a行，同时保留其中包含数据的行和列。编辑； df.dropna()正在删除列中的所有行。当我检查n/a的列是否为空时，df.column_name.empty()返回false。因此，在n/a的列中有数据

浏览 4提问于2018-07-24得票数 0

回答已采纳

1回答

SyntaxError保留/在py文件中的行间移动

python、excel、python-3.x、pandas、dataframe

除了源文件/工作表之外，我创建了8个具有类似属性的数据帧。在以'df3‘开头的一行，我收到一个语法错误。以“df3”开头的行在结构上与所有其他数据帧相同。如果我注释掉'df3‘行，语法错误将转移到'df4’下面的下一个数据帧行。如果我注释掉了'df4‘行，语法错误就会转移到df5。当语法都相同并且除一个数据帧之外的所有数据帧都收到语法错误时，什么会导致这种类型的错误？我在eclipse中使用pydev。我尝试将“#”放在各行代码之前，试图消除出现错误的行，但语法错误移到了下一个数据帧行。 df3 = pd.read_excel(r'C:\Users\

浏览 2提问于2019-05-19得票数 0

1回答

逐帧处理视频时的对象检测“一致性”

deep-learning、computer-vision、object-detection

这更像是一个一般性的问题，而不是一个问题，我希望我在这里问它不是不礼貌的。我发誓我做了我的搜索，但要么我的google-fu缺少，要么我使用的术语完全是曲目，或者两者兼而有之。在视频中进行对象检测时，如果在一帧中检测到某个对象，但在下一帧中没有检测到它，然后在下一帧中又检测到它，那么如何命名问题？我称之为“闪烁”，但我确信这不是学术术语。那么，如何解决这个问题呢？仔细考虑之后，我认为这个问题似乎与对象跟踪有关，但在对不移动的对象进行对象检测时，可能会再次出现此问题。任何提示和/或参考资料都将不胜感激。

浏览 9提问于2020-05-15得票数 1

1回答

如果值为NaN或任何其他值，则Pandas过滤器DF列

python-3.x、pandas

假设我有一个数据帧，如下所示： a b c 0 dave blue NaN 1 bill red NaN 2 sally green Member 3 Ian Org Paid 如何筛选成员或值为“NaN”的行？

浏览 3提问于2020-11-23得票数 1

2回答

计算平均值和数据点之间的欧几里得距离

python、pandas、numpy、dataframe

我有一个数据帧，每行都是我的样本，列是我的特征，我想计算我的数据帧行的平均值，然后计算数据帧样本到平均值的欧几里德距离。例如： df = pd.DataFrame(np.random.randn(10, 5), columns=list([1, 2, 3])) 对于上面给定的数据帧，首先我想计算平均行值，在本例中是一个(1, 3) mean_array。接下来，我想将10个样本之间的距离返回到我的数据帧中的平均值，这将是一个(10, 3)输出。我如何才能以一种简单的方式做到这一点？

浏览 47提问于2020-12-12得票数 0

1回答

连接/合并两个pandas数据帧和填充

python、pandas

我有两个pandas数据帧，每个都有不规则的时间序列数据。我想按时间合并/加入这两个帧。我还想为通过连接过程添加的任何“新”行向前填充frame2的其他列。我该怎么做呢？我试过了： df = pd.merge(df1, df2, on="DateTime") 但这只会留下一个具有匹配时间戳行的帧。如果您有任何想法，我将不胜感激！

浏览 1提问于2014-11-14得票数 7

回答已采纳

2回答

如何在Pandas中将带有数字列表的列转换为np.array格式

python、pandas、numpy

如何在pandas数据帧中将一列的所有行转换为numpy数组格式？示例数据帧： df=pd.DataFrame({ "actual":["1,0,0,1","0,0,1,0"], "predicted":["[1,0,0,0]","[0,1,1,1]"] }) 理想数据帧：我尝试使用下面的代码将actual列转换为数组格式，但失败了。 df['actual']=df.actual(lambda x: np.array([int

浏览 17提问于2021-05-16得票数 0

回答已采纳

1回答

在NaN行拆分数据帧

python、pandas、dataframe

已经有了一个答案，可以处理一个相对简单的数据帧，这个数据帧被赋予了。但是，我手头的数据帧有多列和大量行。一个数据帧包含沿axis=0连接的三个数据帧。(一个的底端附加到下一个的顶部。)它们由一行NaN值分隔。我如何通过沿着NaN行拆分数据来从这个数据中创建三个数据帧？

浏览 1提问于2017-02-08得票数 4

2回答

在dataframe中添加一个新列

python、pandas、dataframe

我有一个数据帧，我想再添加一列数据帧有29793行。因此，我希望新列继续到数据帧的末尾。我尝试了一些东西。在乞讨中，声明列和类似于activity = ["sitting"]的值然后，我尝试添加到现有的数据框架中。 a['activity'] = activity 但是我得到了以下错误 ValueError: Length of values does not match the length of the index 如何解决这个问题。有什么想法吗？编辑：是否有一种方法可以在数据帧(左侧)的乞讨中添加列，因为现在该列被追加在右侧。

浏览 1提问于2020-04-21得票数 1

回答已采纳

1回答

如何添加行数不同的列？

r、dataframe、vector

我正在计算R中的返回值，并试图将其添加到我正在处理的当前数据帧中，但由于行数不同而无法工作，其中as现有行数为194行，分配的数据行数为193行。这段代码在单独执行时工作得很好： diff(log(capm$price_Ford)) 但是，当我尝试将它作为自己的列分配到dataframe中时，我得到了一个错误 capm$ford_ret <- diff(log(capm$price_Ford)) 如何将193行的数据分配给194行的dataframe？

浏览 0提问于2020-11-24得票数 0

2回答

如何在pandas中将标题行转换为普通行

python、pandas

我有一个excel表格，我跳过了多行，最终得到了一个具有一些小结构的数据帧。但是我有一个数据帧，看起来像这样。粗体是标头。 ? 有一些列在顶部，我也隐藏在这个截图中。当通过从excel中跳过行来读取数据帧时，存在多级索引。我想让标题中的数字排成一行。请建议如何实现这一点。提前谢谢你

浏览 50提问于2019-08-28得票数 1

1回答

通过分配空值从数据框中删除行

r、null、dataframe

我们可以使用空值赋值从列表中删除元素： someList<-list(1,2,3) someList[2]<-NULL 对于数据框列也是可能的，因为它是列表对象： someDf<-data.frame(a=1:4,b=2:5) someDf$a<-NULL 是否可以对数据帧或矩阵的行执行相同的操作？(我正在寻找一些快速的方法来消除行，由于我的算法的性质，我不能向量化，其中重要的部分包括行删除，我不能复制数据，因为那里的大小)

浏览 7提问于2014-06-16得票数 4

1回答

从pandas dataframe中删除空行

python、pandas、dataframe

我正在使用，并通过pandas数据帧读取它。我只需要使用paperAbsrtract列，它有一些缺失的数据。 filename = "sample-S2-records" df = pd.read_json(filename, lines=True) abstract = df['paperAbstract'] 因为abstract数据帧中有一些丢失的数据，所以我想删除那些空的行。因此，遵循，我将在下面这样做 abstract.dropna(how='all') 但这并不会删除这些空行。它们仍然在abstract数据帧中。我遗漏了什么？

浏览 0提问于2018-10-05得票数 3

1回答

用可变行循环多个数据帧

r、loops、dataframe、double、rename

我担心这有一个简单的解决方案:我有一组数据帧，它们都包含相同的列。唯一的区别是每个数据帧中的行数不同。假设df1有10行和5个变量，df2有23行和5个变量，df3有7行。我想要做的是给每个df的每一行分配另一个数据帧dfX，根据df编号和行号命名新的数据帧。 dflist <- list(df1,df2,df3) for(i in 1:length(dflist)){ for(j in 1:nrow(dflist[[i]])) nam <- paste("bat",i,j,sep=".") df <- dfX

浏览 0提问于2018-10-23得票数 0

回答已采纳

1回答

在R中合并会产生比其中一个数据框更多的行

r、merge、dataframe、rstudio

我有两个数据帧，第一个包含9994行，第二个包含60431行。我想合并两个数据帧，以便合并后的数据帧包含两个数据帧的组合列，但只包含9994行。然而，我在合并时得到了超过9994行。我如何确保这种情况不会发生？ df1 = readRDS('data1.RDS') nrow(df1) # [1] 9994 df2 = readRDS('data2.RDS') nrow(df2) # [1] 60431 df = merge(df1,df2,by=c("col1","col2")) nrow(df) # [1] 10057

浏览 2提问于2015-05-23得票数 7

4回答

是否有使用列中的定性需求对数据进行子集的功能？

r、subset

我在为大型数据帧创建子集时遇到了问题。我需要提取与其中一列中两个正确城市之一匹配的所有行，但是我创建的任何子集最终都是空的。给定主要数据帧，我尝试： New = data[data$Home.port %in% c("ARDGLASS","NEWLYN")] 但是，R返回“选定的未定义列”

浏览 0提问于2020-03-11得票数 0

1回答

如何在熊猫数据框的顶部添加一行？

python、pandas、dataframe

我是这样读数据的： dataset = pd.read_csv(r' ...\x.csv') 然后指定选择其中的一些，如下所示： dataset = dataset.loc[len(dataset)-data_length: , :] 执行移位： dataset_shifted = dataset.shift(1) dataset_shifted = dataset_shifted.dropna() 并且我想在我的dataset顶部添加一个等于1的新行。但是使用以下命令不起作用，因为我的数据索引是从3714到3722，并且它将索引0添加到数据帧的末尾，而不是数据帧的顶部！

浏览 15提问于2019-03-19得票数 3

回答已采纳

1回答

通过公共索引添加多行数据帧的优雅方法

python、pandas、dataframe

我有一个大约5,000个数据帧的列表，每个数据帧有大约20列和大约15,000行。所有的数据帧共享相同的列名，我想优雅地将所有数据帧中的所有数据相加，以获得“时间”中的相同值。下面显示了2个数据帧的示例。这里的关键是尽可能高效地完成这项工作。 df1 = time data1 data2 0 100 100 1 100 100 2 100 100 df2 = time data1 data2 1 100 100 2 100 100 3 100 100 输

浏览 15提问于2019-02-09得票数 0

回答已采纳

2回答

比较两个数据帧并将结果存储在另一个数据帧中

python、pandas、dataframe、for-loop、if-statement

我有两个这样的数据帧:第一个有一列720行(dataframe A)，第二个有10列720行(Dataframe B)。数据帧仅包含数值。我尝试这样比较它们:我想遍历数据帧B的每一列，并将该列的每个单元(行)与数据帧A中的相应行进行比较。(例如:对于数据帧B的第一列，我将第一行与数据帧A的第一行进行比较，然后将B的第二行与A的第二行进行比较，依此类推。) 基本上，我想逐行比较数据帧B的每一列与数据帧A中的单个列。如果dataframe B中的值小于或等于dataframe A中的值，我想将+1添加到另一个dataframe (或列表，取决于它如何更容易)。最后，我希望删除dataframe

浏览 0提问于2020-10-09得票数 0

3回答

任务:我正在尝试从字典列表中创建一个pandas数据帧。问题:这会为每个字典项创建一个数据帧

python、pandas、dataframe、dictionary

我正在尝试从三个列表创建一个dataframe，这三个列表是我使用网络抓取的数据生成的。但是，当我尝试将这些列表转换为字典，然后使用它们来构建我的pandas数据帧时，它会为每个字典项(行)输出一个数据帧，而不是将所有这些项都作为行包含在数据帧中的一个数据帧。我认为问题出在我用来网络抓取数据的for循环中。我知道在这个问题上也有人问过类似的问题，包括这里的Pandas DataFrame created for each row和这里的Take multiple lists into dataframe，但我已经尝试了这些解决方案，但没有任何乐趣。我相信网络刮擦循环增加了一个细微的差别，使

浏览 24提问于2020-08-19得票数 0

1回答

使用Hive sql连接具有不同列的表

sql、amazon-web-services、join、hive、union

我正在使用AWS集群来处理许多包含嵌套数据的JSON文件到Hive扁平表中。有些数据集非常大，因此我需要将其拆分成块，并为每个块创建单独的小Hive表，这导致这些较小的表具有不同的列。例如，table1有A1....A1000列，table2有A1,A3,A100,...A1000和A1001列(所以有些列是通用的，有些列对于每个表是唯一的)。有没有一种方法可以将这些小表(可能是数百个表，每个表有大约1e7行)附加、联合或连接到一个大的Hive表中，该表包含来自小表的所有列(对于最初没有特定列的每个小表，在缺少的单元格中包含空值)？像具有列A1...A1001的Total_table UP

浏览 4提问于2018-11-17得票数 0

1回答

pandas:如何找到每行最频繁的值？

python、pandas、numpy、dataframe

如何找到数据帧中每一行最频繁的值？例如： In [14]: df Out[14]: a b c 0 2 3 3 1 1 1 2 2 7 7 8 返回值: 3,1,7

浏览 1提问于2016-03-19得票数 12

回答已采纳

3回答

对具有列表值的列使用isin()

python、pandas

浏览 0提问于2019-06-15得票数 2

1回答

有没有一种方法可以将字符串字符添加到句点中的列的值中？

python、string、dataframe

我有一个名为"time_df“的数据帧，它有一个由字符串值组成的列”tstamp“。我需要在第0,5,10，...行中添加一个"0”。直到数据帧的末尾。 snapshot of time_df 有没有一个函数/方法来完成这个任务？谢谢。

浏览 6提问于2021-04-08得票数 1

回答已采纳

1回答

如何在pycharm控制台中设置pandas数据帧输出上下对齐？

python、pandas、dataframe、pycharm

在我使用之前 pd.set_option('expand_frame_repr', False) pycharm控制台中的pandas输出是按行上下对齐：我想查看所有的数据框列，所以我输入： pd.set_option('expand_frame_repr', True) 但在此之后，pycharm控制台中的数据帧的输出不是按行向上/向下对齐，它看起来是这样的：输出非常糟糕，因为pandas数据帧没有按行对齐，那么我如何才能使行再次对齐？

浏览 4提问于2018-04-10得票数 2

1回答

添加指示符以通知数据来自Python的位置

python、pandas、concatenation、indicator

非常感谢你的阅读。我有一个熊猫数据帧，这是多个较小的数据帧连接的结果。我想要做的是在我的最终数据框架中添加多个指示符列，这样我就可以看到每一行来自什么更小的数据帧。这将是我想要的结果： Forename Surname Ind_1 Ind_2 Ind_3 Ind_4 jon smith 0 0 0 1 charlie jim 1 0 0 1 ian james 0 1 0

浏览 1提问于2018-01-03得票数 1

回答已采纳

1回答

在数据帧中创建列，为不同数据帧中的.iloc传递列中的值

pandas、dataframe

我希望将一些Excel电子表格转换为不同的格式，因此我有一个数据帧，其中我已经将单元格位置转换为可用于.iloc的整数位置。示例： df Col Row 1 2 5 6 9 6 诸若此类。另一个Dataframe只是一个使用pd.ExcelFile加载的已解析的Excel表格，因此它可以毫无问题地返回原始单元格位置的信息(我通过导出.csv检查了它)。我希望通过将原始数据帧的每一行的值传递到第二个数据帧的.iloc中来创建一个新列'Info‘，但我的代码不返回任何结果。 df['Info'] = df.apply(excel_sheet.iloc[

浏览 6提问于2021-02-27得票数 1

2回答

切片/重置索引后对Pandas DF使用iterrows()时出现的问题

python、pandas、dataframe

我从CSV文件中读取了数千行数据，其中包含用于计算不同输出的数据。我读入此CSV文件并将输入存储在Pandas数据帧中。然后，我使用itterrows()遍历数据帧。有时我的代码会失败，这时我希望读入原始文件，但在失败后从一行开始处理。因此，当这种情况发生时，设置我的代码，以便在进入itterrows() for循环之前取消注释两行，并将原始数据帧分割成一定大小： # slicing it and re-indexing when a restart is needed df_slice = df.iloc[1292:,] for index,row in df_slice.iterrows(

浏览 0提问于2015-12-22得票数 1

1回答

将DataFrame转换为矩阵的最有效方法

c++、dataframe、rcpp

我一直试图为数据帧和矩阵实现一些基本的R函数，比如Rcpp中的split。为此，我需要知道数据帧和矩阵来回转换的最有效方法。到目前为止，我使用DataFrame构造函数将矩阵转换为DataFrame。如何将DataFrame转换回Matrix.Lets，假设所有数据都是double类型的。目前的方法是矩阵到DataFrame NumericMatrix x; DataFrame y= DataFrame(x); y.attr("names")=x.attr("names"); DataFrame到矩阵 DataFrame x; int xsize=x.siz

浏览 10提问于2014-06-03得票数 1

回答已采纳

1回答

如何在R中向数据帧(转换后)添加一行？

r、dataframe、rbind

在对数据帧进行排序之后，我尝试向数据帧中添加一行，但我一直遇到问题。这就是我尝试过的： colnames(col_freq) <- c("Symptoms", "values") col_freq <- col_freq[order(-col_freq$values),] top_freq <- rbind(col_freq[1:10,], c("Others", sum(col_freq[10:nrow(col_freq),2]))) 但是，上面的代码会导致以下数据帧缺少一个值如果将此行(c("Other

浏览 3提问于2020-03-09得票数 0

回答已采纳

1回答

R强制相同的分类变量集

r、dataframe

我有一个很大的数据集，试图强制每个ID都有一组相同的分类变量，这是我当前数据框架的一个示例： df<-data.frame(ID=c("1","1","1","1", "2","2","2", "3","3"), group=c("a", "a", "b", "b",

浏览 1提问于2018-02-15得票数 0

回答已采纳

1回答

在R中使用llply (plyr包)内的循环

r、loops、plyr

我使用循环来删除数据帧中与复杂模式匹配的特定行。该循环在单个数据帧上工作。我想对存储在列表中的几个数据帧使用相同的过程。我考虑使用plyr，而不是在这个循环中编写另一个循环。但它并没有像预期的那样工作。下面是一个示例： # create a list testlist<-list(as.data.frame(Titanic), as.data.frame(Titanic)) # test for(i in 1: nrow(testlist[[2]])) if(grepl("1st",testlist[[2]][i,1],perl

浏览 1提问于2015-11-25得票数 0

1回答

仅使用R中的非NA值更新/合并数据框行

r、dataframe

假设我有这些数据帧： original = data.frame(id = 1, paramA = 12, paramB=30) update = data.frame(id=1 , paramA = NA , paramB = 22) 如何生成此数据帧： result_df = data.frame(id = 1, paramA = 12, paramB=22) 本质上，更新数据框必须更新original数据框，但只能在非NA列上更新。这就是为什么paramA仍然是12，只有paramB从30更新到22。数据帧将始终只有1行。我试着搜索类似的问题，但我没有找到适合这个问题的东西。

浏览 10提问于2019-05-02得票数 0

回答已采纳