我正在一个循环中读取多个csv文件,并对每个文件的数据执行一些计算,然后我希望将新行添加到数据框架中:
for (i in csvFiles) {
fileToBeRead<-paste(directory, i, sep="/")
dataframe<-read.csv(paste(fileToBeRead, "csv", sep="."))
file <- i
recordsOK <- sum(complete.cases(dataframe))
record.data &l
我在我的项目中实现了实验环境。
此组件基于Scikit learn。
在这个组件中,我将给定的CSV读取到pandas数据帧中。在那之后,我选择了最好的特性,并将给定数据帧的维度从100减少到5。之后,我将删除的ID列添加到这个缩减的数据帧中,以供将来使用。通过降维过程删除了这一列。
在我更改代码以读取所有CSV文件并返回一个联合数据帧之前,一切工作正常:
请看下一段代码:读取所有CSV:
dataframes = []
from os import listdir
from os.path import isfile, join
files_names = [f for f in list
我必须一个接一个地迭代超过100万条记录,这些记录存储在一个列表中。它的值存在于Pandas数据帧中。我必须首先在数据帧中找到它的值,然后对它执行一些关节炎操作。并再次将其存储在另一个Pandas数据帧中。但它需要太多的时间才能完成。因此,我将值存储在元组中,性能有所提高,但并不像预期的那样。有什么方法可以优化这一点吗?下面是我完成的示例代码。 c2=['Fruits','animals',...]
list1=[]
for j in c2:
data2=dataframe.loc[(dataframe['value'] ==
我有一个包含数百列的数据框,我想更改它的名称。我对R非常陌生,所以很容易理解它的逻辑,但我就是在网上找不到相关的例子。
我能得到的最接近的结果是:
projectFileAllCombinedNames <- for (i in 1:200){names(projectFileAllCombined)[i+1] <-variableNames[i]}
基本上,从projectFileAllCombined的第二列开始,我希望遍历数据帧中的列,并为它们分配第二个数据帧中的数据值。我可以使用以下代码手动更改一个列名:
colnames(projectFileAllCombined)[2
我有一个函数,它在一个数据帧中使用两列:
def create_time(var, var1):
if var == "Helår":
y = var1+'Q4'
else:
if var == 'Halvår':
y = var1+'Q2'
else:
y = var1+'Q'+str(var)[0:1]
return y
现在我想遍历我的数据帧,使用函数创
我试图在R数据中对变量进行重新编码。示例-我的数据集中的变量X包含1s和0s。我想创建另一个变量Y,它分别将1s&0从X重新编码为Yes & No。
我尝试这样做来创建已编码的Y变量:
w <- as.character()
for (i in seq_along(x)) {
if (x[i] == 1) {
recode <- "Yes"
} else if (x[i] == 0) {
recode <- "No"
}
w <- cbi
我有下面的代码,我试图循环这个条件。我一直在获取数据帧的索引,而不是数据帧的元素(这就是我想要的)。
airport <- airport_data
for (i in 1:135) {
if (airport$Scheduled[i] < airport$Performed[i])
print(i)
}
Airport City Scheduled Performed
HARTSFIELD INTL ATLANTA 280003 298003
BALTI INTL BALTIMOR 56001
我正在尝试从数据帧的列中提取+或-符号到一个向量:
如果我有这个数据帧:
sample info
A man;+;yes;no
B man;-;no;no
C woman;+;yes;no
D man;NA;no;no
E woman;-;yes;no
我正在尝试将info列中包含的符号(+或-)提取为一个向量:
strand<-vector()
for (i in 1:nrow(df)){
if(grepl(";\\+;", df[i,2]) == TRUE){
stra
我有一个DataFrame: df_IJR
Out[40]:
Date Close
0 2015-01-02 56.610001
1 2015-01-05 55.744999
2 2015-01-06 54.814999
3 2015-01-07 55.384998
4 2015-01-08 56.355000 如何在循环中执行逐行计算?例如。 for i in df_IJR:
x = 1000/df_IJR.iloc[i,:]['Close']
df_IJR['S
我正在尝试删除Pandas数据框中两列中任何一列都不为零的所有行。我的数据帧被索引为从0到620。这是我的代码:
for index in range(0, 621):
if((zeroes[index,1] != 0) and (zeroes[index,3] != 0)):
del(zeroes[index,])
我一直收到一个键错误。KeyError:(0,1)
我的讲师建议我将范围更改为测试,看看我的数据框中是否有坏线。我做到了。我检查了数据帧的尾部,然后将范围更改为(616,621)。然后我得到了键错误:(616,1)。
有没有人知道我的代码出了什么问题,或者
我有一个数据帧,如下所示: test
# Name1 Name2 Match
#1 A C 1
#2 E NA 0
#3 D G 1
#4 R NA 0 如果两个name列都有非NA元素,则match列显示1,如果没有非NA元素,则显示0。我想创建一种读取数据帧的方法,以便如果测试$match == 0,则Name 1中的行元素将被复制到Name 2,如下所示: test
# Name1 Name2 Match
#1 A C 1
#2 E E
我在R中有一个数据帧:
a b c d e
1 2 3 23 1
4 5 6 -Inf 2
7 8 9 2 8
10 11 12 -Inf NaN
如果d列中的对应值是-Inf,我想用NA替换e列中的所有值,如下所示:
a b c d e
1 2 3 23 1
4 5 6 -Inf NA
7 8 9 2 8
10 11 12 -Inf NA
任何帮助都是非常感谢的。我无法在没有循环的情况下完成这个任务,整个数据帧需要很长时间才能完成。