链接到.CSV数据
nchar(Tony.raw$neighborhood_overview)中的错误:'nchar()‘需要一个字符向量
我不知道为什么nchar不能进入neighborhood_overview列
我有一个任务,与提供的CSV文件,以数据否认社区社会统计问卷。我需要计算某些数据列的字符长度,然后绘制图表以表示数据中可用的某些透视图。
我将在不同的数据列上尝试相同的代码,看看我得到了什么。
#Load up the .CSV data and explore in RStudio
Tony.raw <- read.csv("denver_listings
我有一个这样的数据框架:
a <- 1:5
b <- c("a","b","c","d","e")
c <- c(15,49,41,29,7)
df1 <- data.frame(a,b,c)
我想通过执行r bind来创建一个单独的列。目前我是这样做的:
x <- as.data.frame(df1$a)
y <- as.data.frame(df1$b)
z <- as.data.frame(df1$c)
colnames(x)[1] <- "x
我很难加入两个数据集
#df1
id name1
1 a
2 b
3 c
和
$df2
id name2
1 c
2 d
我试着通过他们的id加入他们
library(dplyr)
result <- left_join(df1, df2, by="id")
它给出了以下错误
错误:无法连接列'id‘x 'id':由于类型不兼容(因子/整数),无法连接'id’x 'id‘
因为他们有不同的课程:
sapply(df
我正在使用R执行分析,我将实现四种算法。
1. RF
2. Log Reg
3. SVM
4. LDA
我有50个预测器和1个目标变量。我所有的预测器和目标变量都只是二进制数0和1。
我有以下问题:
Should I convert them all into factors?
Converting them into factors, and applying RF algorithms give 100% accuracy, I am very much surprised to see that as well.
Also, for other algorithms, how shoul
我在R中使用FactoMineR包中的MCA()函数对一组大约160个变量和大约2000个观察值进行多重对应分析。大约150个变量是连续的,所以我首先使用cut()函数将这些连续变量转换为分类变量,然后使用MCA()函数。
我的代码非常简单,如下所示:
library(FactoMineR)
data<-read.csv('demographics.csv')
for (i in 9:length(data)){
temp<-unlist(data[i],use.names=FALSE)
data[i]<-cut(temp,breaks=5
我有一些医院的数据,从csv中读取。我试图通过用户定义的列col,然后按医院的名称订购数据,如下所示:
col <- 'Hospital.30.Day.Death..Mortality..Rates.from.Pneumonia'
hospitals.sorted <- hospitals[order(hospitals[,col], hospitals$Hospital.Name),]
但我想我遗漏了一些东西;它似乎像字符串一样对col排序:
> hospitals.sorted
... # so far so good # ...
2749
我正在查询一个使用Binary(20)列存储主键(UUID)值的表。为什么在WHERE子句中使用速记时,二进制数据被认为是falsey?
# This returns 0 records:
SELECT
*
FROM
my_table
WHERE
primary_uuid
当显式地声明WHERE约束时,不被认为是falsey:
# This query returns all rows in the table
SELECT
*
FROM
my_table
WHERE
primary_uuid IS NOT NULL
/* OR !primary
我有一个混合了整数、字符和字符串列的大data.frame。我需要按数字列对data.frame进行排序。
当我将原始列组合到一个data.frame中时,所有列都更改为data.frame,包括排序所需的列。所以排序给出了类似于1, 10, 100...而不是1, 2, 3...之类的东西
这是我的问题的一个例子。
a <- 1:10
b <- c(1,3,5,6,2,10,100,110,7,4)
c <- LETTERS[1:10]
d <- as.data.frame(cbind(a, b, c)) # I am using this construction
我有一个数据框(a),其中有两列:total_amount和Gender。我需要计算一下男性和女性的消费总额。
在性别栏中,也有NA。在运行以下命令时
tapply(a$total_amount,a$Gender, sum)
结果是:
F M
23623513 24935632
我的问题是:默认情况下,tapply是否删除了为分类选择的片段列中的缺失值,即本例中的性别?如果是,那么我们如何将它们包含在我们的结果中?
数据集、系统设置、函数、描述、结果如下: 如果手动输入choice的AK,然后检查stateOfChoice并在30 day mortality by pneumonia下查找,则会找到医院的数值,因此结果应该是YUKON KUSKOKWIM DELTA REG HOSPITAL,因为它的最低值为~9.5。然而,我得到了PROVIDENCE ALASKA MEDICAL CENTER。填写了此特定状态下肺炎导致的30天死亡率的所有值。尽管如此,它仍然是一个类类型因素。这个错误的类类型很可能是育空医院没有出现在结果中的问题。可以做些什么来解决肺炎导致的30天死亡率不同的医院选择问题? 系统设置