我在R中有两个数据帧,第一个列出了一定数量的关键字及其频率(文本中检测到的次数)。第二数据框架显示关键字的共现(例如,当两个关键字出现在同一章中时)。我想创建一个额外的列,我的数据,然后我将使用作为权重。第三列("w")将基于w_( x1,x2) =共现/(x1被列为关键字的次数+ x2作为关键字列出的次数)。知道我该怎么做吗?
Key words Frequency
art 5
risk 3
trade 1
X1 X2 w_(x1,x2)
art risk 0.125
art trade 0.166
我正在使用R中的“Epi”软件包来模拟一项研究的后续数据。我对声明Lexis模型或运行Poisson和(与生存包相结合) Cox回归没有问题。
作为初始数据审查的一部分,我希望找到一种简单的方法,从R中的词汇模型(预拟合任何泊松/考克斯模型)中的数据,制作一个粗略的未经调整的发病率/事件率表。
我找到了一种编码方法,它允许我这样做,并将变量作为探索性数据分析的一部分进行分层:
#Generic Syntax Example
total <-cbind(tapply(lexis_model$lex.Xst,lexis_model$stratifying_var,sum),tappl
我在R中的dplyr包中创建了一个简单的枢轴表,下面是我的工作示例:
library(dplyr)
mean_mpg <- mean(mtcars$mpg)
# creating a new variable that shows that Miles/(US) gallon is greater than the mean or not
mtcars <-
mtcars %>%
mutate(mpg_cat = ifelse(mpg > mean_mpg, 1,0))
mtcars %>%
group_by(as.factor(cyl)) %>
这里的问题很简单,可能是的副本
我想知道如何计算一个单词在向量中出现的次数。我知道我可以计算一个单词出现的行数,如下所示:
temp <- tibble(idvar = 1:3,
response = (c("This sounds great",
"This is a great idea that sounds great",
"What a great idea")))
temp %>% count(grepl
我在R中有以下数据框架:
Year ID
1 2018 x
2 2018 x
3 2018 y
4 2018 z
5 2019 x
6 2019 x
7 2019 z
我想分别计算“ID”栏中“x”在每一年的总观测值中所占的份额。
结果应该是这样:
Year Share of x
2018 50 %
2019 67 %
用aggregate做这件事是否可能,比如:
aggregate(length(which(df$ID == x)) / length(df$ID), by=Year)
或者其他功能?
我试图用R代码代替vba代码。目前,在vba中,我在范围内使用some查找ID的总值,具体取决于某些日期。在R中,我使用的是变异,一个总结,但总是有一个错误。我不知道怎么修理它。
如果我想找到ID=1的值,可以在2天内获得一些值:
#sys.Date() = 2016-01-06
df
DATES ID VALUE
2016/01/01 1 10
2016/01/02 2 15
2016/01/05 1 13
the result must be:
ID Value
1 13
目前,守则是:
df%>%
group_by(ID) %>%
在学习用R绘制图表时,我使用的是澳大利亚艾滋病生存数据。
为了显示生存中的性别,我用以下代码绘制了2张图表:
data <- read.csv("https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/MASS/Aids2.csv")
ggplot(data) +
geom_bar(aes(sex, fill = as.factor(status)), position = "fill") +
scale_y_continuous(labels = s
任务:对列中的所有元素求和。
问题:当这样做的时候,出现下面的错误"NAs by following“。
我该如何避免这种情况?这就是我到目前为止所做的:
load dataset and get the table:
dat <- read.table("http://stat.ethz.ch/Teaching/Datasets/milben.dat")
get the first column and exclude first element:
fc<- dat[-1,1]
transform facto
当前在Azure中使用R。我正试图在我的数据帧中创建一个新列,它的值依赖于现有的列(“Sum of Pillar”。 ->WithSumIDAPillars <- maml.mapInputPort(1) ->WithSumIDAPillars"newcolumn“<- NA ->WithSumIDAPillars$newcolumn <- if (WithSumIDAPillars$Sum of Pillar <5 ="Low";WithSumIDAPillars$Sum of Pillar <=6<=10 =&
我想在dataframe中遍历列,对于每一列,如果NAs的数量大于所有条目的50%,我想从dataframe中删除该列。到目前为止,我有这样的事情,但它不起作用:
for (i in names(df_r)) {
if (sum(is.na(df_r[,i]))/length(df_r) > 0.5) {
df_r <- df_r[, -i]
}
}
我更像个蟒蛇,我正在学习R,所以我可能会在这里混合语法。
在R中,以下双循环的有效实现是什么?
set.seed(1)
u <- rnorm(100, 1)
v <- rnorm(100, 2)
x <- rnorm(100, 3)
y <- rnorm(100, 4)
sum = 0
for (i in 1:100){
for (j in 1:100) {
sum = sum + (1 - max(u[i], v[j])) * (1 - max(x[i], y[j]))
}
}
特别是对于非常长的向量,计算需要相当长的时间,但是我想知道是否有一种方法可以将这个双循环矢量化?非常感谢。
几天来,我一直在寻找一种方法来解决这个问题,但还没有找到一个编程的解决方案。我正在使用Dplyr在R中建模整洁的数据。我需要能够创建一个包含比例的应急表。我遵循了其他几个帖子的解决方案,但用整洁的数据计算出的比例是错误的。虽然我知道我可以使用prop.table进行这些计算,但我还是想留在Dplyr中,因为在我的工作流中需要完成其余的工作。这是一个复杂的调查和变量跨越许多列,使一个整洁的方法最优。
我将用一些模拟数据重新创建这个问题:
library(tidyverse)
set.seed(0520)
# Create a data frame with three brands
# Si