我试图用一个静态日期填充一个DataFrame列(整个列),但它必须是一个变量。我可以使用numpy填写数字,但无法填写列的日期:
currdate = ['3/31/2018'] #this is what I need filled in
missing = ['GREEN', 'YELLOW', 'RED', 'BLUE', 'PINK']
第1节:
A = ({'PERIOD DT': pd.to_datetime(currdate),
我在一个目录中有超过300个csv文件。csv文件具有以下结构
id Date Nitrate Sulfate
id of csv file Some date Some Value Some Value
id of csv file Some date Some Value Some Value
id of csv file Some date Some Value Some Value
我希望计数每个csv文件中的行数,不包括该文件中的NA,并将其存储在dataframe中,其中有两列:(1) id & (2)
所以我有两个数据帧,第一个是这样的,有不同种类的海鱼的名字(相同的物种在整个数据帧中重复,总共有74610个条目),它们各自的BIN (一种基于聚类算法分配给物种的序列号),以及一个空列(grade),我想根据第二个数据帧的条件填充它: dataframe1 species BIN grade
1. Tilapia guineensis | BOLD:AAL5979 | NA
2. Tilapia zillii | BOLD:AAB9042 | NA
3. Fundulus rubrifrons | B
我已经编写了这个简单的自定义转换器,它用0填充特定列中的na。当我对我的数据集执行fit_transform时,它不会在指定的列中填充nas。我在我的代码中看不到这个问题。 class CustomImputer(BaseEstimator, TransformerMixin):
def fit(self, X, y=None):
return self
def transform(self, X, y=None):
for col in ('PavedDrive', 'GarageQual', 'Ga
我正在尝试将数据从一个数据帧中的一个列合并到另一个数据帧中的另一个列中,使用一个具有共享数据的列作为操作的关键。我已经尝试过关于如何在r中复制Excel的几个不同的教程,并且我尝试了这里提供的几种不同的合并方法(在stackoverflow...but上的答案中),到目前为止,我没有尝试过做我想要做的事情,尽管它似乎是相当常见的函数。
下面是我尝试do...to提供的一个非常简单的例子,假设这是dataframe1:
ID RESULT
4 YES
1 YES
3 NO
2 YES
下面是dataframe2,其中的结果列完全由NAs
我试图使用sqldf包连接两个数据帧。
这些是我的两个数据文件的可复制的例子:
a <- c(1,2,3,4,5)
b <- c(1,2,3,4,5)
c <- c(1,2,3,4,5)
d <- c(1,2,3,4,5)
e <- c(1,2,3,4,5)
dataframe1 <- data.frame(a,b,c,d,e)
a <- c(NA,NA,NA,NA,5)
b <- c(NA,NA,NA,4,NA)
c <- c(NA,NA,3,NA,NA)
d <- c(NA,2,NA,NA,NA)
e <- c(1,NA
我有3列数据,我想用来填充列D(下面的例子的最终结果,目前D列为空白)。对于每一行,and列都有一个填充值和两个NA值。我该怎么做?
A B C D
1 'a' NA NA 'a'
2 NA 'b' NA 'b'
3 NA 'b' NA 'b'
4 NA NA 'c' 'c'
5 NA NA 'c' 'c'
6 'a' NA NA 'a'
7
我想创建一个新列,只在它与特定条件匹配时(这里是x > 2 ),然后直接为条件(x > 2)返回TRUE的这些行覆盖另一个现有列(在这里为auxiliary)。
df <- tibble(x = 1:5, y = 1:5, auxiliary = NA)
# A tibble: 5 x 3
x y auxiliary
<int> <dbl> <lgl>
1 1 NA
2 2 NA
3 3 NA
4 4 N
我有一个DataFrame,我用"N/A“替换了一些缺少的字段值,比如.na.fill("N/A", naColumns)。但是,当数据从S3复制到RedShift时,我收到错误:Invalid timestamp format or value [YYYY-MM-DD HH24:MI:SS]
我知道用字符串值填充时间戳字段可能不是最好的主意。但是,如果我没有替换DataFrame中的空值,我会得到一个关于复制到RedShift时找不到分隔符的错误。这很可能表示缺少列。
顺便说一句,这些字段不是主键的一部分,而是nullable。
在DataFrame一侧填充times
我有一个分类列和两个数字列的数据。“分类”列中的所有类别都没有缺少值。但是,对于分类列中的某些行,第一个数值列中的相邻行具有NA。我的问题是,我希望用第二个数值列的相应行值填充第一个数值列的NA行,但是,我只想对第一列中有NA的行相邻的类别行进行此操作。我希望在不改变原始dataframe形状的情况下执行此操作。下面的示例数据集df:
Cat_col num_col1 num_col2 SS 22 54 PP NA 89 CC 128 34 XX NA 56 SS 67 56 XX NA 90 CC 47 10 BBNA 29
从上面的表中,我希望用相应的num_col1行值填充num_col
我有一个dataframe,它有一个值列和“月份年”列。在第一行中,2018年8月是为月份年列编写的。在value列中有值的下列行是否有可能分别由下一个月自动填充?第二排是2018年9月,第三排是2018年10月,等等。
实际结果:
value month
645 Aug 2018
589 NA
465 NA
523 NA
632 NA
984 NA
预期成果:
value month
645 Aug 2018
589 Sep 2018
465 Okt 2018
523 Nov 2018
632 Dez 2018
984
我试着给出每个因子水平的加权和。我有四列数据:
col1 = surface area
col 2 = dominant
col 3 = codominant
col 4 = sub
1 2 3 4
125 A NA NA
130 A NA B
150 C B NA
160 B NA NA
90 B A NA
180 C A B
如果只填充第2列,则该值将得到列1的全部数量。,如果cols 2和3被填充,则在cols 1中的值被分割成两半;如果cols 2、3和4被填充,则将被拆分
我有一个DF,像这样的5列;
A B Date1 Date2 Date3 Date4
1 x NA NA NA
2 NA y NA NA
3 NA NA z NA
4 NA NA NA f
我想使用dplyr包和case_when()函数来声明如下
df <- df %>%
mutate(B = case_when(
A == 1 ~ B == Date1,
A == 2 ~ B == Date2,
A == 3
我有一个包含4个空列的dataframe foo,需要用list result的内容填充这些列。我不能按公共id合并,因为一个id不存在,但foo和result的长度相同。如何访问result的每个元素的内容并将它们转换为dataframe foo的列
我知道要访问单个列表元素的每个部分,必须编写:result[[1]][1]、result[[1]][2]、result[[1]][3]、result[[1]][4],但是如何遍历它们呢?
我试过了
for (i in 1:length(result)){
foo$coords.x1.min <- result[[i]][1]
}
我有一个dataframe df1:
symbol s_1 . . Other columns
aa 111 . . .
ab 21 . . .
另一个dataframe df2:
symbol . . . Other columns
aa
aa
aa
ab
ab
ab
ab
ac
我希望将s_1列合并到df2中,使每个符号表示s_1值。
我不希望其他列来自s_1,并希望在符号在中不可用时,将NA填充到
输出结果如下:
输出结果如下:
symbol . . .
我想知道如何用插值将特定列中的NA值按组替换。我的一些小组只有一个非NA,我想用一个非NA填充这些组。
如果我有这样的数据:
Group Value
ALB NA
ALB 10
ALB NA
ALB 12
ARE NA
ARE NA
ARE 2
ARE NA
ARE NA
ARG 4
ARG NA
ARG 6
我想要创建一个新的列,所以我的dataframe看起来如下所示:
Group Value New Column
ALB NA 9
ALB 10 10
ALB
我有一个包含1064条记录的dataframe1和一个包含328条记录的dataframe2。我想将dataframe2合并到dataframe1中。dataframe在第二个df中没有相应数据的其余记录应该用文本"NA“填充。例如 DF1 Name Area Totalcases
Name1 Area1 200
Name2 Area2 300
Name3 Area2 100
Name3 Area3 0 DF2 Name Area S
我在.csv中有一个数据集,我使用熊猫将其导入到DataFrame中,组织方式如下(显然不是实数):
A B C D E F
0 20 4 24 8 28
1 21 5 25 NA NA
NA NA 6 26 10 30
3 23 NA NA 11 31
我想要实现的是将数据保存在同一个DataFrame中的两个额外列G和H中,这样我就可以得到以下内容:
A B C D E F G H
0 20
1