背景
我有一个dataset,df,其中我想聚合多个列并创建一个新列。我需要乘Type、Span和Population列,并创建一个新的输出列
ID Status Type Span State Population
A Yes 2 70% Ga 10000
期望输出
ID Status Type Span State Population Output
A Yes 2 70% Ga 10
我有一个.csv文件,其中一列包含是/否答案。我在我的R编译器中打开它,并尝试在它上运行pairs();但是,我得到一个错误消息"non-numeric argument to pairs“。我尝试将yes/no响应更改为0/1值,但as.numeric()和as.factor()似乎什么也不做。我还尝试在使用fix()函数时出现的数据编辑器窗口中将数据类型从字符更改为数字。这会导致列中充满了"NA“。 如何将yes/no响应更改为可以与pairs()和plot()一起使用的内容?我是R的新手,非常感谢您的帮助。
我有一个pandas数据帧,它有一个包含NaN值的分类列,例如:
g = pd.Series(["A", "B", "C", np.nan], dtype="category")
g
0 A
1 B
2 C
3 NaN
dtype: category
Categories (3, object): [A, B, C]
在pandas中,NaN不是一个类别,但您可以在分类数据中包含NaN值。我想在Jupyter笔记本中使用%%R将此数据帧传递给R。分类列被R成功地识别为一个因子,但该因子的格式不
我正在尝试弄清楚如何获取用户在响应R中的提示时提供的列名,并在函数因子中使用它。其思想是使用ggplot2创建一个脚本,允许用户轻松地从表中选择他们希望按颜色编码的变量和按形状编码的变量。
请求用户输入的代码行为:
> Color_Factor<-readline("What is the Column Heading of the Variable you would like separated by Color? ")
您希望用颜色分隔的变量的列标题是什么?覆盖范围
我的问题是,我不知道如何使用此输入来调用特定的列以进行绘图。下面的代码创建了一个带有一种颜色
我有许多dataframe列,我希望将其转换为不考虑每个单独字段的因素。如何对列名进行迭代,如果有匹配,正则表达式如何将它们转换为因素?我来自Python世界,我还不了解R中的循环和字符串替换。
伪码:
for name in df.columns.names:
if name matches "regex":
df$name <- factor(df$name)
我无意中发现了以下问题。我有一个data.frame
A <- data.frame(let = c("A", "B", "C"), x = 1:3, y = 4:6)
其列的类为
sapply(A, class)
let x y
"factor" "integer" "integer"
s.numeric(A$x)
[1] TRUE
is.numeric(A)
[1] FALSE
我不明白为什么A$x和B$x是数字的,但仅由这两列组成的dat