Hallo我目前正在用以下代码进行回归分析:
for (i in 1:ncol(Ret1)){
r2.out[i]=summary(lm(Ret1[,1]~Ret1[,i]))$r.squared
}
r2.out
此代码在第一列之前对数据帧中的每一列运行简单的OLS回归并提供这些回归的R^2。目前回归使用列的所有数据点。我现在需要的是,代码不是使用列中的所有数据点,而是使用滚动的数据点窗口。因此,他计算了30天的滚动窗口R^2在整个时间框架内。输出是一个矩阵,每个滚动窗口的每个(1,i)对的所有R^2。
此代码执行滚动回归部分,但不对每个(1,i)对进行回归。
dolm <-
部署用R(即.线性回归、随机森林、k均值等。)对PowerBI?
这是我目前的想法:我的响应列是column_x。我的训练集将是我的数据集中具有column_x值的所有行。我的测试集将是没有column_x值的所有行(因此需要来自ML脚本的预测值)。我会将ML脚本的输出放在PowerBI (使用编辑查询选项)中的一个新列中,用于名为pred_column_x的预测响应。
修改/填写下面的示例脚本或如何绘制的替代解决方案将非常有帮助!
谢谢!
data.df <- dataset in PowerBI
train.df <- dataset where column_x is no
我想知道如何在两个或多个因素变量的水平组合上执行多个独立的线性回归。
假设我们的数据集有一个相依连续变量,然后是两个因子自变量和一个连续自变量。
那么,假设r中的回归公式是这样的:
model <- lm(weight ~ city + diet + height)
或者,用伪代码编写,我尝试这样做:lm(weight ~ height) %>% group by city lm(weight ~ height) %>% group by diet lm(weight ~ height) %>% group by city & diet
我知道我们可以对每个城市
今天我们在统计课上复习数据帧,我的老师给我们讲了一种“熔化”类型和一种“铸造”类型。我知道两者的区别是什么,以及如何在两者之间进行转换-但我为什么要这样做?如果有的话,是什么让其中一个比另一个更有用/更不有用?是否有特定的情况下,其中一个会比另一个更可取?
我的教练告诉我们,“我们只要看一眼就能知道什么时候需要使用其中的一个”……但我甚至不知道我在找什么。在谷歌上搜索"molten vs cast in R“给了我各种有用的链接,如果我需要知道如何做的话,但不知道为什么其中一个比另一个更受欢迎。
我有一个包含60个变量的283个观察值的数据集。我的结果变量是二分法(诊断),可以是两种疾病中的任何一种。我正在比较两种经常表现出许多重叠的疾病,我试图找到有助于区分这两种疾病的特征。我知道套索逻辑回归是这个问题的最好解决方案,但是它不能在不完整的数据集上运行。 所以我用R中的MICE包计算了我丢失的数据,发现大约40次估计对于我所拥有的丢失数据量来说是很好的。 现在,我想对所有40个推定的数据集执行套索逻辑回归,但不知何故,我被困在需要汇集所有这40个数据集的结果的部分。 MICE的with()函数在.glmnet上不起作用 # Impute database with missing v
我知道在训练机器学习算法之前,分类数据应该是一个热编码。对于多元线性回归,我还需要排除其中一个编码变量,以避免所谓的虚拟变量陷阱。
例:如果我有“大小”:“小”、“中”、“大”的分类特征,那么在一个热编码中,我会有如下内容:
small medium large other-feature
0 1 0 2999
因此,为了避免虚拟变量陷阱,我需要删除3列中的任何一列,例如,列“小”。
对于神经网络的训练,我也应该这样做吗?还是这纯粹是为了多元回归?
谢谢。