我正在尝试将一个包含几个分类变量的数据帧转换为频率计数。
数据如下:
Site Date ID X1 X2 X3
A June - 01/16 1 aware resting resting
B June - 03/16 2 aware feeding feeding
C June - 01/16 1 resting aware aware
我想把它变成这样的东西:
site date ID aware resting feeding
A June - 0
我试图使用spread和gather使用tidyr版本1.0.0.9000和dplyr版本0.8.3.9000。现在,当我执行独立脚本时,这段代码工作得很好。但一旦我在一个闪闪发亮的应用程序中使用这个。我得到以下错误:Warning: Error in : Each row of output must be identified by a unique combination of keys. Keys are shared for 192 rows:
下面是有问题的代码。抱歉,代码太长了,因为大部分代码都是数据。
d1 <- tibble::tribble(
~Date,
我希望通过将连续的列作为行,将分类因子作为列标题进行分组,并将聚合记录作为平均值、最小值或最大值。这是一个基本的问题,也是我无法找到的答案。以虹膜数据为例。我想得到每个物种类别的sepal.width和sepal.length的平均值。 library(dplyr)
mydata2 <-iris
# Groupby function for dataframe in R
summarise_at(group_by(mydata2,Species),vars(Sepal.Length),funs(mean(.,na.rm=TRUE)))
OUTPUT
Species
对于大规模文本分析问题,我有一个包含不同类别的单词的数据框架,还有一个包含每个类别的字符串和(空)计数列的数据框架。现在,我想取每一个单独的字符串,检查哪些已定义的单词出现,并在适当的类别中计数它们。
作为一个简化的例子,鉴于下面的两个数据框架,我想要计算每种动物类型中有多少出现在文本单元格中。
df_texts <- tibble(
text=c("the ape and the fox", "the tortoise and the hare", "the owl and the the
grasshopper"),
ma
我有两个数据集,一个是从其他县移民到A县的数据,另一个是从A县向其他县迁移的数据集。为了将这两个数据集合并为:
期望产出:
Key County State FIPS Inflow Outflow FiscalYear Year
510012012 Accomack County VA 51001 NA 27 2011 - 2012 2012
160012012 Ada County ID 16001 12 18 2011 - 2012 2012
8001201