我有一个问题,应该有一个非常直截了当的解决办法,但我似乎找不到。基本上,我有嵌套在地区*县内的观察,但是他们的候选人值是错误的,单个候选人的信息通过多个列传播。原始数据集也有相同的问题,但它不是只有四个non.grouping变量,而是有500+。
但现在看起来是这样的:
current_df
county district candidate name votes party
1 E100 1 1 john NA <NA>
2 E100 1 2 <NA> 100 <
我很困惑为什么会这样。
> x <- c(1,2,3)
> EMA <- EMA(x, n=3)
> EMA
[1] NA NA 2
> EMA <- EMA(x, n=3, ratio= .3)
> EMA
[1] NA NA 2
> EMA <- EMA(x, n=2, ratio= .3)
> EMA
[1] NA 1.50 1.95
> EMA <- EMA(x, n=2)
> EMA
[1] NA 1.5 2.5
那么,当n等于向量的长度时,EMA = mean,而平滑率是不相关的?完全不明
我很难理解一个简单的regex。我搜索了一下。不知怎么的,我一点也不感兴趣。
以下是一种方法:
public static void testMethod(){
String line = "This order was placed for QT3000! OK?";
String pattern = "(.*)(\\d+)(.*)";
// Create a Pattern object
Pattern r = Pattern.compile(pattern);
// Now
我在R中使用mle()方法手工估计具有多个预测变量的logit回归。我在传递下面的函数calcLogLikelihood中计算对数似然率所需的额外参数时遇到了问题。
这是我的计算负对数概率的函数。
calcLogLikelihood <- function(betas, x, y) {
# Computes the negative log-likelihood
#
# Args:
# x: a matrix of the predictor variables in the logit model
# y: a vector of the outcome vari
我有大量的变量(列),但是每个变量都缺少一些观测值(行)。如何获得一组(或所有的)列,使每一行至少有一个非NA值?
示例:
> df <- data.frame(a=c(1,NA,NA,1,NA), b=c(NA,1,NA,1,NA), c=c(1,NA,NA,NA,1), d=c(1,1,1,1,NA))
> df
a b c d
1 1 NA 1 1
2 NA 1 NA 1
3 NA NA NA 1
4 1 1 NA 1
5 NA NA 1 NA
在这里,我想获得列c和d,因为它们结合在一起至少会为每一行生成一个非NA观察。我曾想过强迫所有
我有一个非常简单的数据帧,其中ID是一个数字序列,有多个组,其中开始/结束用start/stop表示: ID = c(1:20)
group = c(NA,1,NA,NA,NA,1,NA,NA,NA,2,NA,NA,NA,NA,NA,2,NA,NA,NA,NA) %>% as.factor()
type = c(NA,"start",NA,NA,NA,"stop",NA,NA,NA,"start",NA,NA,NA,NA,NA,"stop",NA,NA,NA,NA) %>% as.factor()
df = dat
我想对一个变量做最后一次观察,但只有2次观察。也就是说,对于3或更多NA的数据缺口,我只会为接下来的2次观测进行最后的观察,而将其余的作为NA。
如果我在zoo::na.locf中这样做,maxgap参数意味着,如果间隙大于2,则不替换NA。就连最后两个也没有。还有别的选择吗?
x <- c(NA,3,4,5,6,NA,NA,NA,7,8)
zoo::na.locf(x, maxgap = 2) # Doesn't replace the first 2 NAs of after the 6 as the gap of NA is 3.
Desired_output <-
我正在尝试用同一列中同一月份的行中出现的另一个值填充所有NA,有没有简单的方法?我已经找到了几乎所有的函数,但并不完全是这样。
data.frame看起来像这样
id month price1 price2
1 1 NA 2
2 1 4 NA
3 1 NA NA
1 2 6 NA
2 2 NA NA
3 2 NA 4
输出应如下所示:
id month price1 price2
1 1
我有一个RegEx,它应该可以找到方括号中的所有字母数字字符或文本,就像上面的链接中的例子。这些文本实际上是带有描述的链接(例如,[[Toto|there's a link here]]是到页面Toto的链接) 但问题是,我可能在方括号之间有其他文本,所以就像你在链接中看到的那样,它不能识别结尾的括号(]])。 在这些链接中还有另一个重要的模式,它有管道(|),它将我的文本分成两到三部分。在这种情况下,有两个部分,我只想得到左边的文本,在这个例子中,有三个部分,我想要得到右边的文本。 示例: [[File:Euclid flowchart 1.png|vignette|[[Flowc
我有一些数据是通过间歇性访谈得出的,在这些访谈中,一个人被问到他们是否有某种症状。最后一次每个人都知道没有这个特殊的症状,被称为tstart。如果适用的话,观察到患者出现症状的时间是tstop。使用R中的survival包,使用Surv函数创建一个生存对象,指定这是间隔删失数据。我想要一个生存函数的非参数极大似然估计。这可以使用survfit函数来实现,它似乎是通过调用内部函数survfitTurnbull来实现的。由此产生的置信区间大得难以置信。我不明白为什么会这样。
# A random sample of the data using dput()
structure(list(tsta