使用矢量中的值在数据帧中添加行_在pandas数据帧中添加行移位_从数据帧列表中创建数据帧名的矢量 - 腾讯云开发者社区

r、csv、dataframe

我正在一个循环中读取多个csv文件，并对每个文件的数据执行一些计算，然后我希望将新行添加到数据框架中： for (i in csvFiles) { fileToBeRead<-paste(directory, i, sep="/") dataframe<-read.csv(paste(fileToBeRead, "csv", sep=".")) file <- i recordsOK <- sum(complete.cases(dataframe)) record.data &l

浏览 3提问于2014-05-18得票数 0

回答已采纳

1回答

java中的视频隐写

java、video、steganography、xuggler

我需要为我的项目创建隐写视频(隐藏数据的视频)。我需要从视频中提取所有帧，然后通过替换像素颜色值的LSB中的位来隐藏所选帧中的数据，然后对所有帧进行编码以创建新的视频(请注意，这里需要无损格式，否则我可能会丢失隐藏数据)。我的研究促使我使用xuggler处理视频，使用'png‘格式保存提取的图像，因为它是无损格式(将它们作为BufferedImage对象处理)，并使用'avi’视频文件。到目前为止，我能够从视频中提取所有帧，并在lsb中对我隐藏的数据进行编码。但是我在使用创建新的avi视频文件时遇到了问题。当从新视频中提取帧时，它们会丢失隐藏的数据。我不明白如何才能做到这一

浏览 2提问于2012-07-03得票数 4

2回答

R迭代数据帧的效率

r、dataframe、tidyverse

我正在处理一个大型数据集，我们将其命名为data，并希望创建一个新列，基于某个列data$input，我们将其命名为data$results。结果是基于一些条件if/then逻辑，所以我最初的方法是这样的： for (rows in data) { data$results <- if(data$results == "1" | data$results== "2") { trueAnswer } else { falseAnswer } } 对于大数据帧，此过程可能需要几个小时才能运行。但是，如果我

浏览 1提问于2018-04-16得票数 1

1回答

barplot()根据列中类别的数量为条形图添加不同颜色的灰色

我在R中有一个数据帧，在每个数据帧中有8个变量。我想做一个条形图，我想根据一个特定变量中的值为条形图分配不同的灰色阴影。这就是我制作条形图的方法： barplot(x$cov, names.arg = x$exon, xlab = x$gene[1], ylab = "read depth" , border = gray.colors(???)) 变量exon由整数组成。例如： 0 0 0 0 1 1 1 2 2 3 3 3 3 4 4 4 所以我希望$exon = 0的所有条形都是灰色的，所有$exon = 1的条形都是灰色的，以此类推。有

浏览 0提问于2013-01-17得票数 3

回答已采纳

1回答

Spark联合vs使用spark中的lit添加列

apache-spark、pyspark

这是一个与火花相关的问题。我必须将静态数据添加到各种类型的记录中，每种类型的记录都被作为不同的数据帧处理(比如df1、df2、..df6)我打算添加的静态数据必须与所有6个数据帧一起重复。哪种方式性能更好：对于6个数据帧中的每一个，使用： .witColumn("testA", lit("somethingA")) .witColumn("testB", lit("somethingB")) .witColumn("testC", lit("somethingC")) 或者创

浏览 104提问于2021-01-21得票数 0

回答已采纳

2回答

如何根据R中缺少的数据在数据框中创建新行

我想根据数据帧中缺失的数据向我正在使用的数据帧中添加新行。下面是一个数据帧示例。 year <- c(2001,2001,2002,2002,2003,2004,2004,2005) make <- c('Honda', 'Ford', 'Honda', 'Ford', 'Honda', 'Honda', 'Ford', 'Honda') number_manufactured <- c(10, 20, 15, 47, 14, 19, 35, 9)

浏览 14提问于2016-07-29得票数 1

回答已采纳

1回答

错误ValueError:由于连接数据帧，无法从重复轴重新编制索引

python、csv、scikit-learn

我在我的项目中实现了实验环境。此组件基于Scikit learn。在这个组件中，我将给定的CSV读取到pandas数据帧中。在那之后，我选择了最好的特性，并将给定数据帧的维度从100减少到5。之后，我将删除的ID列添加到这个缩减的数据帧中，以供将来使用。通过降维过程删除了这一列。在我更改代码以读取所有CSV文件并返回一个联合数据帧之前，一切工作正常：请看下一段代码:读取所有CSV： dataframes = [] from os import listdir from os.path import isfile, join files_names = [f for f in list

浏览 0提问于2016-10-11得票数 1

1回答

在spark数据帧上实现pythonic统计函数

pandas、apache-spark、pyspark、statistical-test

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试，我会使用像scipy这样的python库，因为标准的apache pyspark库没有它们。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pandas_df=spark_df.toPan

浏览 30提问于2020-09-13得票数 0

1回答

Pandas-如何跨越多个日期/实体？

python、python-3.x、pandas、dataframe、data-manipulation

我正在尝试使用Pandas来填充股票数据。我遇到的问题是我的数据帧有多个报价器(Dim_Assets.Index)。在某种程度上，我认为分区是必要的。下面的df1是我现在拥有的数据帧。df2是所需的输出。 import pandas as pd d1 = {'AssetDate': ['1/1/2020', '1/3/2020', '1/1/2020', '1/3/2020'], 'Dim_Assets.Index': [1,1,2,2],'AssetPrice': [50, 5

浏览 19提问于2020-04-18得票数 0

2回答

R-使用列表的索引和内容合并两个数据帧[R]

r、for-loop、merge、dataframe、apply

可能非常明显，但对R.来说是新的。我要合并的两个数据帧： longtext <- c("bla bla burp bla blub", "blah bladd", "blablaz burp") txt <- data.frame(longtext) queries <- c("burp", "blah") query <- data.frame(queries) 我在txt中的较长文本字符串中搜索了query中的字符串。匹配项保存在样式列表中： matches <-list(c(1,

浏览 1提问于2015-08-06得票数 2

2回答

在data.frame的行上应用同时具有字符和数字参数的函数

我正在尝试将一个函数应用于数据帧的每一行。该函数使用字符和数字的组合作为参数。这不是一个聚合练习，而是在现有的data.frame中定义一个新字段，基于使用char和num变量的一系列条件。所有变量都在data.frame中。我知道apply函数将数据帧行转换为一个向量，在本例中是一个字符向量:我希望避免在函数中重新转换数据帧变量。有几篇关于如何使用apply和plyr包跨data.frame行运行函数的帖子，但是-from我的新手观点-示例没有逐行混合char和num参数。谢谢。 condsIdx <- function(IDa,IDb,clss){ if (clss ==

浏览 3提问于2013-03-12得票数 0

回答已采纳

2回答

如何使用if/then语句有条件地替换r数据帧中的值

r、if-statement

我想学习如何使用if/then语句有条件地替换R数据帧中的值。假设我有一个像这样的数据框： df <- data.frame( customer_id = c(568468,568468,568468,485342,847295,847295), customer = c('paramount','paramount','paramount','miramax','pixar','pixar')); 我想做一些类似的事情，“如果客户在(‘派拉蒙’，‘皮克斯’)做customer_id 99。否

浏览 0提问于2018-01-15得票数 6

回答已采纳

1回答

在一列中进行更改，同时保持数据帧不变

python、pandas

我想在使用python保持dataframe(df)中其他值不变的同时，对dataframe (Df)的'Column C‘进行更改。条件:如果'Column C‘<5& 'Column C’> 15中有任何值，请将其更改为'NaN‘ 当前数据帧： Index Column A Column B Column C 0 6 12 15 1 8 8 2 2 10 14 6 3 9

浏览 1提问于2018-02-02得票数 0

回答已采纳

1回答

在python中进行迭代的有效方法是什么？

python-3.x、pandas、list、tuples

我必须一个接一个地迭代超过100万条记录，这些记录存储在一个列表中。它的值存在于Pandas数据帧中。我必须首先在数据帧中找到它的值，然后对它执行一些关节炎操作。并再次将其存储在另一个Pandas数据帧中。但它需要太多的时间才能完成。因此，我将值存储在元组中，性能有所提高，但并不像预期的那样。有什么方法可以优化这一点吗？下面是我完成的示例代码。 c2=['Fruits','animals',...] list1=[] for j in c2: data2=dataframe.loc[(dataframe['value'] ==

浏览 22提问于2020-04-07得票数 0

1回答

pythonic方法获取pandas数据帧的零记录切片

python、pandas

我有一个pandas数据帧，我想得到一个零记录切片。也就是说，具有相同列但零行的数据帧。我这样做的原因，是因为我想要一个空的dataframe，我在循环中向其中添加来自原始dataframe的行。目前，如果我使用： empty = df[0:0] 这是蟒蛇的方式吗？

浏览 1提问于2015-12-28得票数 2

1回答

在R中同时更改数百个列名

r、dataframe

我有一个包含数百列的数据框，我想更改它的名称。我对R非常陌生，所以很容易理解它的逻辑，但我就是在网上找不到相关的例子。我能得到的最接近的结果是： projectFileAllCombinedNames <- for (i in 1:200){names(projectFileAllCombined)[i+1] <-variableNames[i]} 基本上，从projectFileAllCombined的第二列开始，我希望遍历数据帧中的列，并为它们分配第二个数据帧中的数据值。我可以使用以下代码手动更改一个列名： colnames(projectFileAllCombined)[2

浏览 0提问于2014-07-23得票数 2

1回答

使用wheen函数遍历dataframe python/pandas

python-2.7、pandas、dataframe

我有一个函数，它在一个数据帧中使用两列： def create_time(var, var1): if var == "Helår": y = var1+'Q4' else: if var == 'Halvår': y = var1+'Q2' else: y = var1+'Q'+str(var)[0:1] return y 现在我想遍历我的数据帧，使用函数创

浏览 0提问于2013-10-16得票数 1

1回答

如何在Pandas中添加无交错格式的数据帧

python、pandas、dataframe、append

我能够附加数据帧，但当它们被添加时，它们出现在先前附加的数据帧的末尾，依此类推。每个dataframe具有不同的报头名称。这是我到目前为止尝试过的： df1 = df1.append(dforiginal,sort=False, ignore_index=False) 更重要的是，每次追加它们时，它们的索引都被设置回0。是否可以将每个数据帧都从Index=0开始追加？下面的屏幕截图显示了我得到了什么(上图)和我试图实现的目标(下图)。谢谢。 [

浏览 11提问于2019-10-28得票数 1

1回答

相同的分区:用于数据帧，之后用于该数据帧的RDD

apache-spark、pyspark、rdd、partitioning

我在数据帧df上的规范中使用了多个窗口函数： windowSpec = \ Window .partitionBy(df['customID']) 稍后，我使用： df.rdd.map((x[0],x[0], x[1], x[2])) and df.mapPartitions(some func) 创建我的数据帧的kv对并处理RDDs上的参数。因为 x[0] = df.['customID'] 在我的例子中，我想知道如何工作/保持窗口规范已经使用的分区。在使用数据帧之后，这是使用RDDs处理paritions的最有效方法吗？

浏览 0提问于2017-12-03得票数 0

3回答

R中变量的重编码方法

r、recode

我试图在R数据中对变量进行重新编码。示例-我的数据集中的变量X包含1s和0s。我想创建另一个变量Y，它分别将1s&0从X重新编码为Yes & No。我尝试这样做来创建已编码的Y变量： w <- as.character() for (i in seq_along(x)) { if (x[i] == 1) { recode <- "Yes" } else if (x[i] == 0) { recode <- "No" } w <- cbi

浏览 5提问于2015-12-07得票数 0

回答已采纳

1回答

R中两个数据帧之间的统计运算

r、statistics、dataframe

我有两个大的数据帧，一个是模拟数据，另一个是观测数据。列表示要比较的点，行表示小时数。 dim(SIM) [1] 400 1000 dim(OBS) [1] 400 1000 400是小时数，1000是我想要比较的点。观测数据帧也包含大量的NA值。因此，当我尝试在两个数据帧上应用该函数时： BIAS <- function(x, y) { x <- na.omit(x) y <- na.omit(y) res <- mean(x - y) } NA值从观测数据帧中删除，该数据帧最后为空，因为每行至少有一个NA。我如何重新定义它，以便执行

浏览 0提问于2013-06-24得票数 1

回答已采纳

2回答

将数据从一个数据帧添加到另一个数据帧

python、pandas、append

我想将数据帧中的数据添加到另一个数据帧中。这是我的第一个数据帧: df ? 这是我的第二个数据帧: dff ? df.append(dff, ignore_index=True, sort=False) 我的结果是： ?

浏览 37提问于2019-03-01得票数 1

1回答

如何将数据框作为参数传递给函数？

r、function

T12是一个有22列(但我只想要第2列到第8列)和大约一百万个条目的数据帧。第一列中的一些条目是NA。每次第一列中有NA时，complete cases都会删除整个行。一切都运行得很好。我有更多的数据帧，我不想为每个数据帧重新编写整个代码。我希望有像这个函数一样的东西，并想放入x T12，T13，T14，T15等。你能帮我吗？ split <- function (x){ x <- x[,2:8] x <- x[complete.cases(x[ ,1]),] }

浏览 3提问于2020-08-07得票数 1

2回答

如何将从R中的while循环生成的单列数据保存到dataframe？

r、dataframe、loops

我用R编写了以下非常简单的while循环。 i=1 while (i <= 5) { print(10*i) i = i+1 } 我希望将结果保存到一个数据帧中，该数据帧将是单列数据。如何做到这一点？

浏览 0提问于2021-11-05得票数 0

1回答

在矢量或数据帧上使用函数

r、loops、apply、purrr

我刚刚写了一个函数(例如，func(a, x, y, z)) x，y和z是固定的参数，我有一个矢量(a <- seq(1, 14, 0.25))或a的数据帧。将该函数应用于它的最佳方式是什么？干杯

浏览 12提问于2021-06-17得票数 0

1回答

如何在Matlab中对运动序列的特定帧进行动画处理？

matlab、animation、plot、frames、motion

我有一个N帧的运动序列，我有动画的代码(不是我的代码).I可以动画所有的帧或范围，或从开始到结束的K步长的范围。结果是在没有缓存任何帧的情况下显示移动，并在最后一个帧停止。我想要的是比figure.for示例中的最后一帧更多的帧，第一帧在中间，最后一帧在相同的图形上，就像一个运动，使所有的帧在一个图中都可见！！。此外，我可以将单独的帧作为单独的图像保存在内存中，但我是否可以将它们保存为运动序列(来自图像)，或者将它们保存在一个图形中作为一个图(不需要子图)。如果需要，我可以给出动画的代码。

浏览 2提问于2013-10-31得票数 0

2回答

在R中使用for循环进行模式匹配的更快替代方法

r、plyr、apply

我正在解决一个问题，在这个问题中，我必须处理两个数据帧数据和缩写，我想将数据中存在的所有缩写替换为它们各自的完整形式。到目前为止，我一直以以下方式使用for-loops abb <- c() for(i in 1:length(data$text)){ for(j in 1:length(AbbreviationList$Abb)){ abb <- paste("(\\b", AbbreviationList$Abb[j], "\\b)", sep="") data$text[i] <- gsub(abb,

浏览 2提问于2013-07-17得票数 0

3回答

控制流:如何获取要显示的数据，而不是索引

r、for-loop

我有下面的代码，我试图循环这个条件。我一直在获取数据帧的索引，而不是数据帧的元素(这就是我想要的)。 airport <- airport_data for (i in 1:135) { if (airport$Scheduled[i] < airport$Performed[i]) print(i) } Airport City Scheduled Performed HARTSFIELD INTL ATLANTA 280003 298003 BALTI INTL BALTIMOR 56001

浏览 0提问于2019-09-20得票数 0

1回答

row：：与条件为全局变量可回收的第一行产生的ifelse进行变异

r、conditional、vectorization、dplyr

我很好奇为什么对dplyr::mutate()的调用中的一个dplyr::mutate()语句似乎只适用于我的数据框架的第一行。这将返回一个值，该值在整个列中循环使用。由于在ifelse()的任何一种情况下计算的表达式仅在我的数据框架的上下文中有效，所以我希望条件检查和由此产生的表达式评估将作为一个整体在列上执行，而不仅仅是它们的第一个元素。下面是一个例子:我在数据框架之外定义了一个名为checkVar的变量。根据checkVar的值，我希望在新列z中将不同的值添加到数据帧中，该列是根据现有列的函数计算的。如果我做了 checkVar <- 1 df <- data.frame

浏览 4提问于2017-10-06得票数 2

回答已采纳

1回答

拆分后将大量数据帧导出到csv

r、dataframe、dplyr、split

我正在创建一个脚本，该脚本将根据"participant id“列将数据帧拆分成组，并将这些数据帧导出为csvs。现在，我正在处理一个只有7个参与者I的数据帧，但该脚本将用于有数百个参与者的csv。首先，这是一个数据帧列表： participant_id <- c("1", "1", "1", "2", "2", "2", "3", "3", "3", "4", "4", "4") t

浏览 15提问于2021-04-16得票数 0

回答已采纳

1回答

如何在闪亮的数据中添加多个行

r、shiny

我想要创建一个数据框架，用户可以单击“添加”按钮来添加一行。不过，重要的是，我可以任意次数地使用该按钮，希望向dataframe添加任意数量的行。我试过了 library(shiny) ui <- fluidPage( numericInput("a", "a", 1), actionButton("add", "add"), tableOutput("sum") ) server <- function(input, output, session) {

浏览 2提问于2022-09-22得票数 1

1回答

在pandas数据帧的标题行之前添加具有excel countif条件的行

python、excel、pandas、dataframe

所以我有这个pandas数据帧(在pivot动作之后)： ? 我想在前两行添加一个countif语句，第一个1是countif value为0，第二个是count if value >0，这将给出结果： ? 请注意，要获取我使用的数据帧： df = pd.DataFrame(data) df.columns = ['patient_id', 'id', 'date', 'num', 'num_valid', 'db_valid'] df = df.pivot(index=&#

浏览 6提问于2020-07-18得票数 0

1回答

从列值中减去某列的组平均值

pandas、pandas-groupby、mean

我有一个包含35列的公司数据集。这些公司可以属于8个不同的组中的一个。如何为每个组创建一个新的数据帧，使其从原始值中减去该组列的平均值？以下是数据集的一部分的示例。 ? 例如，对于第1行，我希望从值7204.400207中减去BANK_AND_DEP for Consumer Markets的平均值。我需要为每一列执行此操作。我假设这是转换和lambda的某种组合--但不能符合语法。

浏览 16提问于2020-04-30得票数 0

1回答

基于OpenGL的gluLookAt相机旋转

c++、opengl、camera

我试图使用gluLookAt在OpenGL固定功能管道中实现FPS风格的摄像机。鼠标应该旋转相机在任何给定的方向。我储存相机的位置： float xP; float yP; float zP; 我存储坐标的查看： float xL; float yL; float zL; 向上向量总是设置为(0,1,0) 我使用这台相机的方式如下：gluLookAt(xP,yP,zP, xL,yL,zL, 0,1,0); 我希望我的相机能够沿着偏航和俯仰移动，但不能滚动。在每一帧之后，我将鼠标的坐标重置到屏幕的中间。由此，我可以得到x和y的变化。在每一帧之后，我如何转换x和y中的变化，以适当地改变观看坐

浏览 0提问于2018-03-18得票数 1

回答已采纳

1回答

对于R，我们在Python中有' in‘命令的替代命令是什么？

r、if-statement、vector

假设我在R中有一个数值向量，我想看看向量中是否存在一个特定的整数。我们可以在python中使用' in‘命令和if语句很容易地做到这一点。我们在R中也有类似的东西吗？这样我就不必使用for循环来检查我想要的整数是否存在于向量中？我尝试了以下方法，但似乎不起作用。“‘normal”是一个数据帧，第二列包含整数。 if (12069692 in normal[,2]) {print("yes")} 说， Error: unexpected 'in' in "if (12069692 in"

浏览 5提问于2013-04-11得票数 1

回答已采纳

2回答

使用矩阵(NxN)观察值创建离散隐马尔可夫模型？

machine-learning、hidden-markov-models

在我看到的所有离散的隐马尔可夫模型中，观察数据都是由一个整数流组成的。但是，如果观测值实际上是离散的特征向量，会发生什么？例如，如果我试图使用HMM来学习视频帧的灰度强度值上的手势识别，该怎么办？也就是说，每个观察值都由一个nxn矩阵来描述，而不是一个单一的值？我该怎么做呢？谢谢!

浏览 3提问于2012-07-27得票数 2

2回答

视频流的快速无损压缩

algorithms、compression

我有一段来自固定摄像机的视频。分辨率和FPS都很高。我得到的数据是拜耳格式的，每像素使用10位。由于我的平台上没有10位数据类型，所以使用16位字将原始数据存储在内存中。在通过网络传输数据之前，我想实现某种无损压缩。摄像机不会移动，因此连续帧的大部分几乎是相同的--但由于不可避免的噪声(去噪不是一种选择，因为它应该是无损的，甚至不应该“失去”噪音)。由于FPS很高，即使是变化的部分在任何两个连续的帧之间也不会有太大的变化。然而，看起来相机也有一点摇晃。在图像空间中，即使静止的物体也不完全是静止的。压缩必须是动态的，所以我不能收集很多帧并将它们全部压缩在一起，但我可以查看1帧，并将其用作

浏览 0提问于2016-07-04得票数 14

回答已采纳

2回答

将"\\;+;“用作不起作用的正则表达式

我正在尝试从数据帧的列中提取+或-符号到一个向量：如果我有这个数据帧： sample info A man;+;yes;no B man;-;no;no C woman;+;yes;no D man;NA;no;no E woman;-;yes;no 我正在尝试将info列中包含的符号(+或-)提取为一个向量： strand<-vector() for (i in 1:nrow(df)){ if(grepl(";\\+;", df[i,2]) == TRUE){ stra

浏览 0提问于2020-06-05得票数 0

2回答

一个计算pandas数据帧中速度的函数

python、pandas、acceleration

我想知道是否有一些函数/库可以计算熊猫数据帧中的速度。我有以下数据帧： Time bar_head_x bar_head_y bar_head_z 0.00 -203.3502 1554.3486 1102.8210 0.01 -203.4280 1554.3492 1103.0592 0.02 -203.4954 1554.3234 1103.2794 0.03 -203.5022 1554.2974 1103.4522 由此我想计算速度，速度和加速度。速度和加速很简单:我使用np.linalg.norm计算速度，如下

浏览 28提问于2020-06-18得票数 2

回答已采纳

1回答

在某些条件下，数据帧为每行拆分为多个数据帧

python、pandas

我有一个这样的数据帧。 A,B 1,2 3,4 5,6 7,8 9,10 11,12 13,14 我想在数据帧上拆分这部分。拆分的数据帧应该每三行包含一次。拆分的第一个数据帧可以包含从索引0到索引2。第二个包含从索引1到索引，依此类推。 A,B 1,2 3,4 5,6 A,B 3,4 5,6 7,8 A,B 5,6 7,8 9,10 诸若此类。我一直在使用forloop，然后使用iloc，然后将这些拆分的dataframe添加到列表中。我正在寻找是否有一些矢量化方法来在pandas中拆分上述数据帧。数据帧很大，使用forloop遍历每一行都很慢。

浏览 13提问于2020-12-21得票数 0

回答已采纳

1回答

Python中的行式计算，并将其添加到pandas中的数据框中

python-3.x、pandas、dataframe

我有一个DataFrame： df_IJR Out[40]: Date Close 0 2015-01-02 56.610001 1 2015-01-05 55.744999 2 2015-01-06 54.814999 3 2015-01-07 55.384998 4 2015-01-08 56.355000 如何在循环中执行逐行计算？例如。 for i in df_IJR: x = 1000/df_IJR.iloc[i,:]['Close'] df_IJR['S

浏览 42提问于2021-06-28得票数 0

1回答

过滤Pandas数据帧中至少包含一个零的行

python、pandas、for-loop、dataframe、range

我正在尝试删除Pandas数据框中两列中任何一列都不为零的所有行。我的数据帧被索引为从0到620。这是我的代码： for index in range(0, 621): if((zeroes[index,1] != 0) and (zeroes[index,3] != 0)): del(zeroes[index,]) 我一直收到一个键错误。KeyError：(0，1) 我的讲师建议我将范围更改为测试，看看我的数据框中是否有坏线。我做到了。我检查了数据帧的尾部，然后将范围更改为(616,621)。然后我得到了键错误：(616，1)。有没有人知道我的代码出了什么问题，或者

浏览 1提问于2018-10-12得票数 0

1回答

将numpy中的不同数组添加到数据帧的每一行

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一个SparkSQL数据帧和2Dnumpy矩阵。它们具有相同的行数。我打算将numpy矩阵中的每个不同数组作为新列添加到现有的PySpark数据帧中。这样，添加到每一行的列表是不同的。例如，PySpark数据帧如下所示 | Id | Name | | ------ | ------ | | 1 | Bob | | 2 | Alice | | 3 | Mike | numpy矩阵是这样的 [[2, 3, 5] [5, 2, 6] [1, 4, 7]] 产生的预期数据帧应该如下所示 | Id | Name | custo

浏览 16提问于2019-10-05得票数 0

8回答

逐行创建R数据帧

list、r、dataframe

我想在R中逐行构造一个数据帧。我做了一些搜索，我得到的建议是创建一个空列表，保持一个列表索引标量，然后每次向列表中添加一个单行数据帧，并将列表索引前进一次。最后，列表中的do.call(rbind,)。虽然这是可行的，但它似乎非常繁琐。有没有更简单的方法来实现同样的目标？显然，我指的是不能使用某些apply函数而显式地需要逐行创建数据帧的情况。至少，有没有一种方法可以push到列表的末尾，而不是显式地跟踪最后使用的索引？

浏览 1提问于2010-09-04得票数 116

回答已采纳

1回答

用于将信息从R中的一列复制到下一列的循环

r、loops、if-statement

我有一个数据帧，如下所示： test # Name1 Name2 Match #1 A C 1 #2 E NA 0 #3 D G 1 #4 R NA 0 如果两个name列都有非NA元素，则match列显示1，如果没有非NA元素，则显示0。我想创建一种读取数据帧的方法，以便如果测试$match == 0，则Name 1中的行元素将被复制到Name 2，如下所示： test # Name1 Name2 Match #1 A C 1 #2 E E

浏览 23提问于2021-06-26得票数 0

回答已采纳

2回答

如何将Python中的for循环替换为faster选项

python、pandas

我有两个数据帧，大约有10000行。它们类似于下面的a和b，但行数更多。 a Out[9]: end start 0 4.0 3 1 5.5 5 2 7.5 7 3 9.5 9 4 11.5 11 5 15.0 14 6 18.0 17 7 21.0 20 8 26.0 25 9 31.0 30 b Out[10]: status moment 8.0 o 10.0 o

浏览 3提问于2016-08-26得票数 2

2回答

基于另一列替换数据帧列中的值

r、dataframe

我在R中有一个数据帧： a b c d e 1 2 3 23 1 4 5 6 -Inf 2 7 8 9 2 8 10 11 12 -Inf NaN 如果d列中的对应值是-Inf，我想用NA替换e列中的所有值，如下所示： a b c d e 1 2 3 23 1 4 5 6 -Inf NA 7 8 9 2 8 10 11 12 -Inf NA 任何帮助都是非常感谢的。我无法在没有循环的情况下完成这个任务，整个数据帧需要很长时间才能完成。

浏览 0提问于2021-02-27得票数 1

回答已采纳

1回答

对大数据帧进行赋值

performance、r、for-loop

在R中，我用以下方式创建了一个数据框： data <- data.frame(dummy=rep('dummy',10000)) data$number = 0 data$another = 1 当我运行一个为数据框赋值的for循环(迭代行)时，我的代码运行得非常慢 calculation <- function() {2} somethingElse <- function() {3} system.time( for (i in 1:10000) { data[i,2]=calculation() data[i,3]=somethingEl

浏览 0提问于2013-05-24得票数 0

2回答

如何逐行从dataframe中删除列出的条目？

python、pandas、list、dataframe、sublist

我有两个单独的数据帧，每个数据帧大约有100k行。一个数据帧包含满足标准A的列名的列表(列标题"list_A")，另一个数据帧(列标题"list_B")包含不符合标准B的名称列表(根据特定于它们的相对数据帧的单独信息计算)。我试图通过不使用循环从列表A中删除列表B中的名称来创建一个满足这两个条件的名称列表。这个是可能的吗？例如，拉取列"list_A“可能如下所示： [['X','Y','Z','A'], ['X','Y','Z&#

浏览 14提问于2019-01-25得票数 0

回答已采纳

1回答

如何计算pyspark数据帧的协方差矩阵？

python、apache-spark、pyspark、covariance-matrix

我有一个很大的pyspark数据框架，其中列是一些产品，行是其随时间变化的价格。我需要计算所有产品的协方差矩阵，但数据太大，无法转换为pandas数据帧，因此我需要使用pyspark进行计算。我到处都找过了，但我想不出解决这个问题的办法。有没有人知道该怎么做？我已经有了相关矩阵，所以任何使用标准差对角矩阵的方法都是非常受欢迎的。 Here是我的数据帧中两列的一个示例。

浏览 68提问于2021-06-15得票数 0