我有一个具有数值变量和分组变量的数据集,并且希望计算组方法。有些组是空的,即在数据中没有出现一些因素级别。在计算分组方法时,我希望这些空组与非空组一起列出。这是很容易实现的使用基数R:
# Create an example of a data frame where variable1 is numeric and variable2 is a
# factor with three levels, two of which appear in the data:
df <- data.frame(variable1 = c(1,2,3,4), variable2 = factor(c
我需要关于R中数据操作的帮助。
我的数据集如下所示。
Name, country, age
Smith, Canada, 27
Avin, India, 25
Smith, India, 27
Robin, France, 28
现在,我想仅根据姓名和国家/地区的组合来确定“Smith”经历了(两次)更改的次数。
基本上,我希望将每个数据点与其他数据点进行比较,并仅针对名称和国家/地区的组合确定整个数据集中发生的更改的计数。
我有一个大的数据集的样本,属于不同的群体,并在所涵盖的地区不同。数据集的结构简化如下。我现在想为每一组创建集合样本(子组),其中每个子组所涵盖的区域等于指定的区域(例如20)。样本应该被随机分配,不需要替换给每个子组,子组的数量应该在数据帧末尾的一个新列中列出。
SampleID Group Area Subgroup
1 A 1.5 1
2 A 3.8 2
3 A 6 4
4 A 1.9 1
5 A 1.5 3
6
这是我的数据框:
id kind subject price
1 1 one 200
2 1 one 100
3 2 two 200
4 1 three 200
5 2 two 100
我需要添加另一个具有逻辑值的列,比较(对于每个id)价格和具有相同主题的组内价格的平均值。为了得到这样的东西:
id kind subject price less_than_mean
1 1 one 200 FALSE
2 1 one 100 TRUE
3 2 two 200 FALSE
4 1 three 200 TRUE
5 2 two 100 TRUE
对于大型数据集,最强大的决策是什么?
在r数据帧上又遇到了一个问题。
#starting position
from <- c("A","B","A","C")
to <- c("D","F","D","F")
number <- c(3,4,6,7)
data.frame(from,to,number)
如何计算两个相同的"from- to“关系(从A到D)的个数?结果应该看起来像我的“结果”数据帧。
#result
from <- c("A","
我需要关于如何基于r中的共性来融合多个列的帮助,并且还需要向数据框架添加一个新的列来反映溶解的数量。我没有包含在下面的模拟数据中,但是y和z数据在每列中都是不同的。我也有几百行。 #My data now
x y z
A
A
A
A
B
B
B
B
B
B
C
C
C
C
C
#How I want my data to look
x y z q
A 4
B 6
C 5
我希望将一个操作放在一个for循环中,以便将该操作应用于每个子集。
目标是创建一个for循环,为变量"State“生成子集,然后为每个子集中的每个条目分配分位数值(1:4或0-25%、25%-50%、50%-75%、75%-100%)。这是有点难以解释,所以这里有一个例子。我的数据如下所示:
data <- data.frame(data)
State Summer_Temperature
CA 72
NY 84
TX 91
NY
在R中,我有三个条件中的一个发生的事件对,并希望找到在每个条件下发生的事件对。例如:
label1 label2 factor value
bob ted A 4
bob carol A 3
ted carol A 2
bob ted B 3
ted carol B 4
bob ted C 2
bob carol C 9
ted carol C
我有一个名为df的数据帧,其结构如下:
X C D E F
A b c d e
A f g h i
B l m n o
B p q r s
我想要得到这样的结果:
X C D E F
A b f c g d h e i
B l p m q n r s o
我可以使用ddply,就像这样: test <- ddply(df,"X",...)
我不知道如何完成它。
你能帮我一下吗?
谢谢!
起动数据
我在R工作,我有一套数据来自不同剂量的不同药物治疗的动物群(队列)。下面是我的数据集的一个可复制的简化示例:
# set starting values for simulation of animal cohorts across doses of various drugs with a few numeric endpoints
cohort_size <- 3
animals <- letters[1:cohort_size]
drugs <- factor(c("A", "B", "C"))
doses &l
我是R的新手,我想计算保存在同一个.csv文件中的两组数据的均方根。 .csv包含如下内容: Group X Y
A 2 2
A 3 2
B 2 7
B 6 5 我仅为A组中的人检索RMSE的失败尝试: myData=read.csv("foo.csv")
attach(myData)
library(Metrics)
if (row.names(A)) {
rmse(x,y)
} 在我计算RMSE之前,我需要附加A和B来分离数据帧吗,或者有更好的方法来实现这一点吗? 提前感谢!
嗨,我有如下所示的df:
ID | Gender
1 | M
1 | F
2 | F
2 | F
2 | F
3 | M
3 | M
3 | F
4 | M
4 | M
4 | M
我想不同的过滤器ID,它有超过1种性别(过滤不可能有超过1种性别的脏数据)结果应该是:
ID | Gender
1 | M
1 | F
3 | M
3 | F
我如何在R中使用dplyr?
我在R中有一个数据框,看起来像这样: Id group category number
001 1 A 0.10
001 1 B 0.15
002 2 A 0.55
003 3 A 0.75
003 3 B 0.45 现在,我希望每个Id只有一行。对于groups 1和2中的Id,应主要使用category为B的行。如果groups 1或2没有category为B的行,则应使用category A。对于group为3的Id's,应始终使用
很棒的堆栈溢出的人! 我在纠结我的R代码。我有一大群人都去过很多医院--我想得到的是每个人的每种疾病的第一个病例。在删除重复项后,我有6613个观察值,我的数据集中有1306个唯一id。因此,我知道我需要至少有1306例初发疾病,而且可能更多,因为有些人有多种共病。 我已经按病人安排了,然后按日期安排了。例如:What my dataset looks like 因此,对于0001号患者,我希望得到他们的第一例心绞痛、慢性IHD以及他可能遇到的任何其他问题(实际上,一些患者需要17次住院,其中大多数人都会重新诊断。 我已经尝试了在StackOverflow上找到的几个解决方案,但我得到了35
当涉及到使用R操作数据时,我是相对较新的。我想在我的数据框架中创建一个新列,它创建一个累积变量,我假设有一些方法可以用dplyR来实现,但对它没有太大的经验。他是一个典型的数据框架。
Group X Y
A 0 0.00
A 1 0.12
A 4 0.02
A 10 0.07
A 17 0.41
B 0 0.00
B 3 0.06
B 18 0.13
B 25 0.20
B 32 0.10
在这种情况下,我想为Y创建一个累积变量的列。
Group X
我有一个像下面这样的df;
set.seed(1)
No <- rep(seq(0,95,1),times=21)
AC <- rep(rep(c(78,110),each=1),times=length(No)/2)
AR <- rep(rep(c(256,320,384),each=2),times=length(No)/6)
AM <- rep(1,times=length(No))
DQ <- rep(rep(seq(0,15,1),each=6),times=3)
V <- rep(seq(100,2100,100),each=96)
R &l
我需要找到不同组之间的共同值,最好使用dplyr和R。 从我这里的数据集中: group val
<fct> <dbl>
1 a 1
2 a 2
3 a 3
4 b 3
5 b 4
6 b 5
7 c 1
8 c 3 预期输出为 group val
<fct> <dbl>
1 a 3
2 b 3
3 c 3 因为在所有组中只出现数字3。 这段代码似乎不起作
给定一个列出用户、产品和产品功能的tibble,我尝试计算拥有特定产品功能的不同产品用户的比例: library(dplyr)
#>
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#>
#> filter, lag
#> The following objects are masked from 'package:base':
#>
#> inte