我有一个sqlite,其中包含带有int值的列,它们太大,R无法处理。是否仍有可能以一种不以奇怪的方式转换这些大int值的方式在R中导入这些列?
到目前为止我所做的是:
library(DBI)
library(RSQLite)
library(data.table)
# connect to the sqlite file
con <- dbConnect(RSQLite::SQLite(), 'test.sqlite')
# get the perormance_data as a data.frame -> data.table
p1 = dbGetQuer
我有一个dataframe "df“如下:
V1 V2
1 b a
2 b a
3 a b
4 b a
5 a b
6 a b
7 a b
8 b a
9 a b
10 a b
11 a b
12 b a
有没有一种方法可以让在R中自动执行以下三个步骤的?
步骤1: R标识数据的12行中的"df“&模式"a b”重复了大部分时间。
Step2:基于步骤1中的多数模式的,R只使用步骤1中包含多数模式的行来设置数据帧
我有一个矩阵报告,它有两个行组和两个列组。有一列将行组级别上的计算最大值(字段!AdjustedManning.Value)作为小计。我想在行组之外的底部添加一个合计,以求小计数字的总和。我可以使用什么表达式来做这件事?实际上,我正在寻找最大数字的总和 在图像中,用于设计的黄色方框是我需要放置表达式的位置,并预览我期望它计算的内容。 Design and Preview
我有许多(600+)文本文件,每个文本文件只包含一列数据,我希望将这些数据读入R中的数据框架中。问题是,我需要将每个文件中的值作为一个单独的列导入,并且每个文件中的值数量并不相等。文本文件都以标题“Area”开头,这是我不需要的(我正在尝试将文件名设置为标题),然后继续使用一列数字(4000 - 10000值)。
Area
0.0034556
0.0002345
....
我最接近的是:
filenames <-dir()
n <- length(filenames)
for (i in 1:n) {data[i] <- read.csv(filenames[i]}
## p
我希望基于R中的2列合并2个数据帧,这两个数据帧称为popr和data列,它们共享相同的2个变量: USUBJID和TRTAG2N,这两个变量是我想要组合这两个数据帧的变量。
当我只尝试根据一列进行合并时,合并函数就能工作:
merged <- merge(popr,droppedcol,by="USUBJID")
当我试图通过使用2列合并并查看数据框架“工期”时,表是空的,没有值,只有列标题。它说“表中没有可用的数据”。
我的任务是在R中复制SAS代码:
data duration;
set pop combined1 ;
by usubjid trtag2n;
我刚注意到包裹里有个小怪癖。请参阅下面的代码片段以进行复制。
DT = data.table(a=1:3, b=1:6);
setkey(DT,b);
# As expected - data is "keyed" on b
> key(DT)
[1] "b"
# Now if i change content of column b, the key on the table "drops out"
DT [,b := seq(1,6)];
> key(DT)
NULL
我现在在R version 3.0.1 (2013-
我有2列ID和Product:
ID Product
A Clothing
B Food
A Food
A Furniture
C Food
B Clothing
如何使用R创建一个数据文件,其中每个ID都将产品分隔为逗号,如下所示:
ID Product
A Clothing, Food, Furniture
B Food, Clothing
C Food, Clothing
我必须删除我的数据帧中的列,该数据帧有超过4000列和180个rows.The。我希望设置以下条件来删除数据帧中的列:(i)如果该列中的值/条目少于两个,则删除该列;(ii)如果该列中没有两个连续的(一个接一个)值,则删除该列。(iii)删除所有值均为NA的列。我已经提供了删除列的条件。这里的目的不仅仅是按照列的名称查找列,就像“如何在data.table中删除列?”那样。我的说明如下:
A B C D E
0.018 NA NA NA NA
0.017 NA NA NA NA
0.019 NA NA NA NA
0.018 0.034
旋转和小计是电子表格和SQL中常见的辅助步骤。
假设字段为data.table ( date, myCategory, revenue )。假设您想知道所有收入中日收入的比例,以及在不同分组中日收入的比例,这样
b[,{
#First auxiliary variable of all revenue
totalRev = sum(revenue) #SUBGROUP OF ALL REV
#Second auxiliary variable of revenue by date, syntax wrong! How to d
我一直在学习一门名为“R中的数据分析,data.table方法”的数据放大器课程。
练习的指导如下,
选择不使用==的b组。
选择b和c组。
使用mult选择b和c组的第一行。
使用by=.EACHI和.SD选择b和c组的第一行和最后一行。
扩展前面的命令,在返回第一行和最后一行之前打印出组。
布局如下,
# This is your data.table `DT`. The keys are set to `A` and `B`
DT <- data.table(A = letters[c(2,1,2,3,1,2,3)], B = c(5,4,1,9,8,8
我有一个名为df的数据,其中第二列alt中的一些值用逗号分隔:
ref alt
ACTGG A,AATGG
GGC G,GG
GC G
AAT A,AA,AAA
在R中是否有一种方法可以复制列、df$alt、中有逗号分隔值的每一行,以便每个值都单独显示?它们将被复制number_of_commas+1时间,以允许每个逗号分隔的值显示一次。下面是我正在寻找的输出:
ref alt
ACTGG AATGG
ACTGG A
GGC GG
GGC G
GC G
AAT AAA
AAT AA
AAT A
同样,这只会更改第二列中
我在R中工作,我有一个由包含分类数据的列组成的数据。在这些类别的每一个组合上,我必须聚合一个度量。
输入表:
ID Region Access Touchpoints
A Central High 8
B Central Low 7
C West High 7
D West Low 3
E Central High 2
F Central Low 5
G West High 9
H West Low 8
我想要的产出:
Region Access Touchpoints
A
我有一个dataframe,我想从第2列提取位置的开始和结束,其中第4列中的值等于0。我在这张数据里有数千行。
C1 C2 C3 C4
R1 1 val 182
R1 2 val 22
R1 3 val 45
R1 4 val 0
R1 5 val 0
R1 6 val 0
R1 7 val 0
R1 8 val 108
R1 9 val 99
R1 10 val 0
R1 11 val 0
我希望找到第4列中的值等于0的范围。例如4-7和10-11。我该怎么找出这个范围并打印出来?
对熊猫来说是新手。我正试着按列在两个组中进行小计。我设法弄清楚如何使用2组的属性和,但在其中,我也试图做一个小计。例如,请参阅下文-
df.groupby(['Fruit','Name'])['Number'].sum()
输出
Fruit Name Number
Apples Bob 16
Mike 9
Steve 10
------
35
----
我正在尝试在Excel中构建一个数据透视表来汇总一些数据,例如
我希望列A和B的形式要紧凑,列C要有轮廓;我还需要B列的小计。让小计出现在最后一行,一切都很正常。
但是当我转到B字段上下文菜单时,选择"Field Settings/Layout & Print“并选择"Display subtotal at the top of each group”分类汇总:一些没有显示(对于"b/a“配置),而另一些给出了错误的结果( "a/a”组合为60)。
有没有办法解决这个问题?我正在使用Excel2010,但在Excel2007