首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >R中的大向量分裂为区间

R中的大向量分裂为区间
EN

Stack Overflow用户
提问于 2013-10-10 22:46:02
回答 2查看 1.7K关注 0票数 3

我对R不太在行,我运行了这个循环,得到了11,303,044行的巨大向量。我有另一个向量,它是由另一个维数为1681行的循环产生的。

我希望运行一个chisq.test来比较它们的发行版。但由于它们的长度不同,所以它不起作用。

我试着从11,303,044个大小的向量中抽取1681个大小的样本来匹配第二个向量的大小长度,但是每次运行它时,我都得到不同的chisq.test结果。

我想把这两个向量分成等量的间隔。

比方说

vector1:

代码语言:javascript
运行
复制
temp.mat<-matrix((rnorm(11303044))^2, ncol=1) 
head(temp.mat)
dim(temp.mat)

vector2:

代码语言:javascript
运行
复制
temp.mat<-matrix((rnorm(1681))^2, ncol=1) 
head(temp.mat)
dim(temp.mat)

如何在相同的时间间隔内将它们分割成相同的长度向量?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-10-10 23:09:44

chisq.test皮尔森(氏)卡方检验。它是为离散数据而设计的,有两个输入向量,它会强迫你传递给因子的输入,它测试的是独立性,而不是分布的均匀度。例如,这意味着数据的顺序将产生影响。

代码语言:javascript
运行
复制
> set.seed(123)
> x<-sample(5,10,T)
> y<-sample(5,10,T)
> chisq.test(x,y)

    Pearson's Chi-squared test

data:  x and y
X-squared = 18.3333, df = 16, p-value = 0.3047

Warning message:
In chisq.test(x, y) : Chi-squared approximation may be incorrect
> chisq.test(x,y[10:1])

    Pearson's Chi-squared test

data:  x and y[10:1]
X-squared = 16.5278, df = 16, p-value = 0.4168

Warning message:
In chisq.test(x, y[10:1]) : Chi-squared approximation may be incorrect

所以我不认为chisq.test是您想要的,因为它没有比较发行版。也许可以尝试一些类似ks.test的方法,它可以处理不同的长度向量和连续的数据。

代码语言:javascript
运行
复制
> set.seed(123)
> x<-rnorm(2000)^2
> y<-rnorm(100000)^2
> ks.test(x,y)

    Two-sample Kolmogorov-Smirnov test

data:  x and y
D = 0.0139, p-value = 0.8425
alternative hypothesis: two-sided

> ks.test(sqrt(x),y)

    Two-sample Kolmogorov-Smirnov test

data:  sqrt(x) and y
D = 0.1847, p-value < 2.2e-16
alternative hypothesis: two-sided
票数 0
EN

Stack Overflow用户

发布于 2013-10-10 23:05:24

代码语言:javascript
运行
复制
mat1<-matrix((rnorm(1130300))^2, ncol=1) # only one-tenth the size of your vector
smat=sample(mat1, 100000)                #and take only one-tenth of that
mat2<-matrix((rnorm(1681))^2, ncol=1)
qqplot(smat,mat2)                       #and repeat the sampling a few times

从统计的角度看,你所看到的似乎很有趣。在“偏离平均值”的较高水平上,大样本总是偏离“良好拟合”,这并不奇怪,因为它有更多的真正的极端值。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19307509

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档