我有一个带有一些测量值的DataFrame和一列传感器位置(L,C,R)。我根据传感器的位置将我的数据分成3个较小的DataFrames,但问题是我得到的DataFrames顺序不正确。我的DataFrame: t position x y z
0 0 L ………………….
1 0.1 L ………………….
2 0.2 L ………………….
3 0 C ………………….
4 0.1 C ………………….
5 0.2 C ………………….
6
我目前正努力在R Studio中处理数据帧。假设我的数据帧如下所示: x y
0 a
0 a
1 a
1 a
0 b
0 b
1 b
1 b 是否有可能对行进行混洗,但可以定义变量y的四个不同序列(即aa,ab,bb,ba)相同频繁地出现?在我的原始数据框中总共有24行,我希望我能把我的问题弄清楚。非常感谢您的帮助! Ema
我有一个数据帧,它基本上看起来如下所示: X1 X2
A 1000
B 976
C 800
. .
. .
. .
X 89
Y 45
Z 26 现在,我想根据X2列中的值从我的数据框中提取一个子样本,其中包含顶部的x%、中间的y%和底部的z%。我的数据帧已经根据X2进行了降序排序。目前,我有这样的代码: a = subset(data, X2 > quantile(X2, prob = 1 - n/100)) 但是,根据X2中的值,这只返回数据帧的前n%。有人知道如
想知道当列类型是分类的(特别是h2o enum类型)时,在h2o dataframe GroupBy对象中求和列时会发生什么。
将pandas数据帧转换为H2o数据帧。然后,我按某一列对行进行分组,并对其他列求和。
location_id price store
------------------
1 10 JCP
1 15 SBUX
3 20 HOL
then after grouping and summing; df.group_by('location_id').sum(['
我需要将一个语料库分成N个单词。假设这是我的语料库: corpus <- "I need to break this corpus into chunks of ~3 words each" 解决此问题的一种方法是将语料库转换为数据帧,对其进行标记化 library(tidytext)
corpus_df <- as.data.frame(text = corpus)
tokens <- corpus_df %>% unnest_tokens(word, text) 然后使用下面的代码(取自here)按行拆分数据帧。 chunk <- 3
n &
R具有按值传递的语义,这可以最小化意外的副作用(这是一件好事)。然而,当代码为了可重用性/可读性/可维护性而被组织成许多函数/方法时,当代码需要通过例如大数据帧、通过一系列转换/操作来操纵大型数据结构时,按值传递语义导致了大量的数据复制和大量的堆颠簸(这是一件坏事)。例如,在作为函数参数传递的堆上占用50Mb的数据帧将至少复制与函数调用深度相同的次数,并且调用堆栈底部的堆大小将为N*50Mb。如果函数从调用链的深层返回转换/修改的数据帧,则复制将再增加N个。
SO works 触及了这个主题,但在表达方式上避免了直接问按引用传递的问题,获胜的答案基本上是这样说的:“是的,按值传递就是R的工作方
我正在尝试使用R合并一些数据帧。您可以在https://www.kaggle.com/mathurinache/world-happiness-report中找到数据帧。 有6个数据帧,每个数据帧为期一年(2015-2020)。 有没有使用年份作为新列合并这个日期框的方法? Ex:
Year Country Region
2015 Switzerland Western Europe ...
2016 Switzerland Western Europe ...
2017 Switzerland Western Europe ...
.
.
.
.
我需要处理三个数据帧,其中包含按名称索引的相同子组。也就是说,第一个数据帧df1如下所示:
Name col1 col2
Car 94.56 1
Car 52.67 2
Bike 421.5 2
Bike 34.56 4
df2和df3具有具有相同值的相同名称列,只是列不同。我需要处理3个数据帧中的所有行,每个不同的名称。到目前为止,我一直在使用这种方法:
results = data.frame(name = factor("dummy"), col1 = 1,
我正在尝试从列表中的多个数据帧创建多个测试和训练数据集。因此,我得到了“1:nrow(df):长度为0的参数中的错误”,并且不知道如何解决它。我已经手动更新了列表,没有for循环,而且它工作得很好。但是,由于某种原因,当我试图使用for循环重复这个过程时,就会得到错误。
我首先从虹膜数据集创建了一个3帧迷你数据帧。
x <- 3;
# split the data into 3 mini data frames
set.seed(1)
df_list<- split( as.data.frame(iris), sample(x,nrow(iris),replace=TRUE))
而
我有一个关于R代码的问题。 当我尝试在我的模型中添加功能时,我遇到了一个问题。我们的教授给了我们一些代码来做套索回归的魔术收集卡价格。如果我按原样运行他的代码,它将会工作。每当我尝试在他的代码中添加另一列作为功能时,我都会遇到问题。 下面是错误:"Error in cbind2(1,newx) %*%nbeta: Cholmod error 'X and/or Y have error dimensions‘at file./MatrixOps/cholmod_sdmult.c,第90行“ A screenshot of my command line,然后如果我删除更大的训
如果我有这样的数据(但更大):
ID Rating
12 Good
12 Good
16 Good
16 Bad
16 Very Bad
34 Very Good
38 Very Bad
52 Bad
我要做些什么来显示每一种类型的计数的百分比。基本上,对于每种类型的评级,图表应该像x轴上的4条,y轴应该是评级出现的时间的百分比。例如,上述数据帧将有4条,其中非常坏和坏为25%,良好为37.5%和非常好为12.5%。我非常希望在ggplot2中得到一个答案,但是,由于我根本找不到这个,R中的任何东西都可以。