所以我在R的数据帧中有一个向量,叫做月份。我的数据帧叫做wr200meter。下面是wr200meter$Month的输出:
[1] May June June Nov Oct March April
[8] May July July Sept June March April
[15] June Oct August June Oct Sept June
[22] August August August
当我做as.numeric(wr200meter$Month)时,我得到:
[1] 6 4 4
我正在尝试对有序股票进行排名(例如,通过回报)。因此,我希望收到一个表,其中包含按升序/降序排列的股票名称(此排名顺序函数的参数),并正确处理NAs (在每行的末尾移动)。我真的想不出一个优雅的方法来做这件事。
下面是我想要的示例:
这是xts对象在不同时间表示某些属性的coredata:
john joe tina jack suzie sasha sven luca
2003-05-29 1 2 3 4 5 6 7 8
2003-06-
所以我有一张桌子,上面有Names、Date of Birth和Districts。我的选区范围从1010到1239。我想要的是简化区域-->使1010:1019是1,1020:1029是2等。我可以通过减去数据,并构建新的向量来做到这一点,但我希望仍然只有一个数据帧。
谁能告诉我在R中我是怎么做的?
我有一个示例数据帧,如下所示。
> x=data.frame(id=1:5,c1=letters[1:5],c2=letters[13:17])
> x
id c1 c2
1 1 a m
2 2 b n
3 3 c o
4 4 d p
5 5 e q
我想从这个数据帧中创建一个向量,它根据另一个向量为每行选择不同的列。所以如果向量是
> vars
[1] 1 2 2 1 1
>
我想要x的第一行,第一列,第二行,第二列,依此类推。因此,期望的输出向量(或数据帧)将是if向量
a n o d e
if数据帧
id V1
1 a
这听起来可能微不足道,但我在查找数据帧的列名时遇到了一个问题(只有一列)
> a <- data.frame(x = c(1,2,3,4,5), y = c("a", "a","c","d","r"))
> a
x y
1 1 a
2 2 a
3 3 c
4 4 d
5 5 r
> colnames(a)
[1] "x" "y"
> names(a)
[1] "x" "y"
> a1 <- a[,1]
&g
我有一个很大的Pandas数据帧,24'000'000行×6列加上索引。我需要读取第1列中的一个整数(=1或2),如果第1列= 1,则强制第3列中的值为负;如果第1列= 2,则强制第3列中的值为正。我在Jupyter notebook中使用以下代码: for i in range(1000):
if df.iloc[i,1] == 1:
df.iloc[i,3] = abs(df.iloc[i,3])*(-1)
if df.iloc[i,1] == 2:
df.iloc[i,3] = abs(df.iloc[i,3]) 上面的代
我有csv文件,我正在将其读入Python Pandas Dataframe。我想对操作进行矢量化,以便使用针对某些列的一组用户定义函数对列运行数据清理,并将结果附加到数据帧中。
我可以读取记录并逐个处理它们,但我想通过Pandas使用一个函数对1整列进行操作来向量化操作。
输入数据帧
A B C D
0 a b c d
1 t f h e
2 j r y k
我想在列A, B and C上执行数据清理(DC*)。
A B C D DC1-A DC2-B DC3-D
0 a b c d
我试图使用函数rmultinom从R中的多项分布生成数据,但我遇到了一些问题。事实是,我想要一个50行20列的数据帧,结果的总和等于3乘以n*p。 我使用以下代码: p <- 20
n <- 50
N <- 3*(n*p)
prob_true <- rep(1/p, p)
a <- rmultinom(50, N, prob_true) 但我得到了一些非常奇怪的结果和一个20行50列的数据框。如何解决这个问题? 提前感谢!
我正在尝试将一个函数应用于数据帧M的所有334行,其中包含时间和位置数据,并为每行获取一个值。相反,我得到了每一行的334个值的列表。如何才能简单地从同一行变量的值中计算出每行一个值呢?
这些是数据帧M的头部和尾部:
d mo y lat long
5 6 2007 NA NA
6 6 2007 NA NA
7 6 2007 NA NA
8 6 2007 26.89 15.53
9 6 2007 28.00 15.73
10 6 2007 22.41 14.93
...
26 4 2008 23.86 14.05
27
所以之前我回答了我自己关于在R中思考向量的问题,但是现在我有另一个问题,我不能‘向量化’。我知道向量更快,循环更慢,但我不知道如何在向量方法中做到这一点:
我有一个数据框架(出于情感原因,我喜欢将其称为my.data),我想对其进行完整的边际分析。我需要一次删除一个特定的元素,并对数据帧“赋值”,然后我需要再次迭代,只删除下一个元素。然后再做一次。再一次..。这个想法是在我的数据子集上做一个完整的边际分析。无论如何,我不能想象如何以一种向量高效的方式做到这一点。
我已经缩短了代码的循环部分,它看起来像这样:
for (j in my.data$item[my.data$fixed==0]) {
我有一个叫做" dt“的大数据表,我想要生成一个尺寸相同的数据表,它给出了与dt中每个条目的行平均值的偏差。
这段代码可以工作,但在我看来很慢。我希望有更快的方法吗?也许我把桌子弄错了,所以我不会利用这份参考作业。或者这就像现在一样好?
(我是一个R新手,所以任何其他技巧都很感激!)
这是我的代码:
library(data.table)
r <- 100 # of rows
c <- 100 # of columns
# build a data table with random cols
# (maybe not the best way to build, b