我试图使用Python语言中的统计模型来估计动态因子模型,遵循示例https://www.statsmodels.org/dev/examples/notebooks/generated/statespace_dfm_coincident.html然而,我使用的不是示例数据集,而是我自己的包含282个变量的数据集,有124个观察值(不同国家的月通货膨胀率)。然而,在运行代码超过六个小时后,我没有得到任何结果。使用不同数量的变量和不同的求解器进行实验,我得到了以下时间估计: Number of variables Initial params in seconds Model estima
我正在使用R执行分析,我将实现四种算法。
1. RF
2. Log Reg
3. SVM
4. LDA
我有50个预测器和1个目标变量。我所有的预测器和目标变量都只是二进制数0和1。
我有以下问题:
Should I convert them all into factors?
Converting them into factors, and applying RF algorithms give 100% accuracy, I am very much surprised to see that as well.
Also, for other algorithms, how shoul
我在R中创建了箱形图,但是,它们显示不正确。我的数据基于Kaggle上的德国信用数据集。
我的代码有两个不同的属性,试图被测试:
data %>%
ggplot(aes(x = Creditability, y = Purpose, fill = Creditability)) +
geom_boxplot() +
ggtitle("Creditability vs Purpose")
data %>%
ggplot(aes(x = Creditability, y = Account.Balance, fill = Creditability
我试图使用glmnet软件包在具有二进制结果( logit)的模型上安装一个套索(L1惩罚)。除一个连续变量外,我的预测器都是二进制的(它们是1/0没有有序的,~4000)。我需要将预测器转换成稀疏矩阵,因为这需要花费很长时间,否则需要一天时间。我的问题是:人们似乎在使用sparse.model.matrix,而不仅仅是将它们的矩阵转换为稀疏矩阵。为什么会这样呢?我需要在这里做这个吗?两种方法的结果略有不同。
此外,我的因素是否需要编码为因子(涉及结果和预测因素),还是使用稀疏矩阵并在glmnet模型中指定结果是二项式是否足够?
这是我目前所做的
#Create a random datase
在使用rpart()和predict()命令生成预测模型后,我应该在R中使用什么命令来执行混淆矩阵?
# Grow tree
library(rpart)
fit <- rpart(activity ~ ., method="class", data=train.data)
printcp(fit) # display the results
plotcp(fit) # visualize cross-validation results
summary(fit) # detailed summary of splits
# Prune the tree (in my