enter image description here 我有一个很大的数据集,对于依赖于另一列的一列,我必须取其平均值。例如。第一行平均值,然后当我转到第二行时,我想要第一行和第二行的平均值,依此类推。此外,我的列中有非整数,我只想取整数的平均值,我希望它跳过那些非整数,而不影响我的平均值。(包括这些行,但不包括在平均值中)。我正在考虑写一个for循环,但我感到困惑,不知道如何实现它。任何帮助都将不胜感激。 图为dataFrame的一部分。如您所见,第一列基于Complete、NotComplete (并且是每日合规性)。我正在导入一个Excel文件,并尝试对其进行修改,使complete
我在mysql中有一个数据库,其中一列是timstamp数据类型。它在windows和linux上以这种格式存储时间戳(yyyy-mm-dd hh-mm-ss)。但是,当我从java代码中从mysql获取数据时,它会在我的窗口上以这种格式( May 11, 2018, 11:35:34 AM )和以这种格式( May 11, 2018 11:35:34 AM on linux ubuntu )带来数据。
如何使时间戳格式一致?
我有一个k*n矩阵X和一个k*k矩阵A,对于X的每一列,我想计算标量。
X[:, i].T.dot(A).dot(X[:, i])
(或者,数学上是Xi' * A * Xi)。
目前,我有一个for循环:
out = np.empty((n,))
for i in xrange(n):
out[i] = X[:, i].T.dot(A).dot(X[:, i])
但是,由于n很大,如果可能的话,我想更快地完成这个任务(即使用一些NumPy函数而不是循环)。
在一列数据中,我试图确定一个新的高点和前一个新的高点之间的最小值。在下面的例子中,我标记了新的高点在哪里,它们之间的最小值是多少。什么是R公式来解决这个问题?在excel中,我可以使用匹配和max/min公式来完成它。我不知道如何在r列的某一段中找到最小值。
data
0 New High
-80
-160
-160
-160
-160
-160
-347
-351
-351
-444
-444
-444
43 New High -444
43
10
10
-6
20
352 New High -6
352
352
528 New High 352
528
511
511
518
47
我在使用R码。给定具有三列不同x-值和一列y-值的数据,我使用以下命令创建了一个4x4散点图矩阵:
plot(info45)
(我将信息表命名为“info45”)。我还在这个YouTube视频中看到,您可以使用命令对(Info45),这也同样有效。
按照以上视频中的例子,我想找出散点图的相关性。我输入了命令:cor(info45),但它返回消息"Error in cor(info45) : 'x' must be numeric"。我不确定这是否有帮助,但是数据表中的列标题是V1、V2、V3和V4。实际上,下面是数据表本身的示例:
V1 V
我有这样的数据:
df<- data.frame(a = 0,b=0,c=1,d=1,e=0,f=1,g=1,h=1)
print(df)会给出这个结果
a b c d e f g h
0 0 1 1 0 1 1 1
现在,我需要找出1s的长度,这是最大的。在上面的场景中,我们将1s放在一起两次(C列和D列),然后0在下一列中出现,然后三次出现( f、g、h列)。我希望结果是这样的,因为3是最大的2和3。
a b c d e f g h ***Max_Span***
0 0 1 1 0 1 1 1 ***3***
是否有一种简单的方法来完成这个任务,而不是一次跳过每个字节并检