如何使用来自不同位置的数据(分类变量)建立统计模型？_如何在R中使用lapply多次运行包含来自不同数据帧的变量的模型_如何使用R根据长格式数据中列的第一个零的位置创建一个新的分类变量？ - 腾讯云开发者社区

modeling

我正在帮助我的女朋友为她的硕士论文项目做一个模型。Sci)。数据集具有以下列:站点距离(M)深度(cm) pH %N%C C:N 她测量了来自5个不同沼泽(湿地)的土壤/泥炭样本的pH、总碳和总氮。“distance (M)”是离非随机起点(湿区)的距离，在一些站点中，它也会倒退为负值。C:N由%N和%C派生而来，深度是采集土壤样本的深度。我们应该如何对数据建模？我们怀

浏览 29提问于2021-11-20得票数 0

回答已采纳

1回答

如何开始分析和建模一个学术项目的数据，而不是统计学家或数据科学家

dataset、predictive-modeling、data-cleaning、linear-regression

我为一篇PhD论文收集了数据，需要帮助我理解如何构建一个路线图来进行分析和统计分析。PhD本身并不是在统计或机器学习，但我想了解的步骤和类型的分析，我必须遵循的数据分析的高级学位？一般来说，我应该如何处理这个问题呢？在我收集的数据中，有623项观察，包括一个连续因变量和13个自变量(连续、分类和序数)，它们是根据研究经验和文献

浏览 0提问于2015-09-19得票数 1

回答已采纳

3回答

是否需要对此数据集进行热编码？

python、pandas、machine-learning、regression、one-hot-encoding

下面是来自UCI数据存储库的数据集。我想要建立一个回归模型，将血小板计数作为因变量(Y)，其余作为特性/输入。我的问题是：在建立回归模型之前，应该对这些变量进行“一次热编码”吗？，我还观察到值在<

浏览 4提问于2020-07-06得票数 1

2回答

当我们使用10倍交叉验证时，我们需要进行重要的测试吗？

machine-learning、cross-validation

通常是为了表明我们的结果不是偶然的，我们使用显着性检验，就像t-检验。但是当我们使用10倍交叉验证时，我们会在数据集块上学习和测试我们的模型。我在想，当我们使用了10倍交叉验证时，是否需要进行t检验？更准确地说，我的意思是什么时候我们应该使用10倍交叉验证？

浏览 4提问于2015-06-05得票数 1

回答已采纳

1回答

如何度量ML任务中协变量的信息？

machine-learning、information-theory

背景一个是贷款俱乐部贷款预测，另一个是在线实验领域的pravite数据集，用来预测客户是否会接受治疗。这两个任务都是具有100+Million观测和100个协变量的二进制分类。然而，我的借贷俱乐部模型有一个很高的PR-ROC(0.86)，这表明了模型的良好性能。我用低的度量分数( proofs = 0.03)和高损失函数值作为证

浏览 0提问于2019-12-21得票数 1

2回答

包装的情感分析工具(TextBlob/NLTK)和训练你自己的分类器之间的区别？

machine-learning、nlp、sentiment-analysis、nltk、classifier

我在实践中对ML和训练分类器很陌生，所以我想知道NLTK和TextBlob等包的内置情感工具与手动创建分类器(培训、测试等)有什么不同。我想我在某个地方读到了这样的评论:Textblob/NLTK现有的情感分析工具基本上只是标记文本，并计算肯定/否定的单词数，以确定总体情绪评级(不确定这有多准确)。有没有人知道，一般来说，使用自定义分类器可以更好地对文本进行情感分析(我正在分析酒店评论中表达的情感)？

浏览 0提问于2019-12-06得票数 1

回答已采纳

2回答

如何在合适的glm模型中更改变量的名称？

r、glm

我有一个模型对象来自一个模型(glm)，它是由其他人在R. 在模型中有几个变量我想重新命名。我不容易访问重新运行他们的代码，并在他们的数据框架中用不同的变量名构建模型。例如，他们将某个变量命名为"previous_customer“，并将其编码为一个虚拟变量。但是在我使用的数据框架中

浏览 0提问于2018-06-07得票数 3

回答已采纳

3回答

传统预测分析与机器学习方法

machine-learning、deep-learning、predictive-modeling、statistics

使用统计及其工具进行的传统预测分析与使用机器学习和深度学习的传统预测分析有什么区别？我们如何利用机器学习和深入学习来更好地建立预测模型？如何确定何时使用传统模型的边界，何时使用ML和DL？我们有很多有效的统计工具可用Stata，SPSS。它们更容易使用。同时，计算效率也很高。我无法找到一些令人满意和令人

浏览 0提问于2019-09-11得票数 2

1回答

R中的多水平Logistic回归

r、controls、logistic-regression、hierarchical

对于一艘实习船，我正在评估一项有利于环境的倡议，在那里，会员可以向他们的邻居做广告，说服他们也加入。我想从一组预测器中预测组成员(二进制)：这些数据被收集在，30个不同的社区，，所以我

浏览 0提问于2016-05-03得票数 1

1回答

如何理解卡方列联表

python、scipy、statistics、chi-squared

我几乎没有什么分类特征： 'Married', 'Education', 'Property_Area']chi2} ,p-value: {p}')Chi-square Statistic : 79.63562874824729 ,p-value: 4.502328957824834e-19 我如何知道这些特性是否与这些

浏览 1提问于2018-10-07得票数 2

回答已采纳

1回答

通过查看glm对R中不同数据集的描述能力来评估glm

r、glm

我用glm建立了一个逻辑模型，其中包含了10个预测因子和一个二进制响应变量。该模型是使用我的整个数据集的子集(~8000观测)创建的，随机选择了3000个观测数据，将这些数据放入一个新的数据集(新数据)中，并将glm与新数据进行拟合。为了评估模型，我想看看模型如何很好地描述了

浏览 2提问于2014-05-04得票数 0

回答已采纳

1回答

R线性回归与lm -如何处理有数千个值的分类变量(如城市或邮政编码)？

r、regression

利用R和线性回归函数lm()建立了零售商店销售预测模型。在我的数据集中的许多相依特性变量中，有一些分类(因子)特性，可以接受数千个不同的值()，例如邮政编码(和/或城市名称)。例如，仅加州就有6000多个不同的邮政编码；如果我使用城市，就有400多个城市。我理解lm()为分类特性的每个值创建一个变量。问题是，当我运行

浏览 0提问于2016-03-17得票数 1

1回答

如何将二进制KNN分类器转换为SVM分类器？

matlab

我正在使用KNN分类器对性别进行分类。我想添加一个SVM分类器，而不是具有相同标签0和1的KNN分类器(0用于女性，1用于男性)if class==1else

浏览 4提问于2017-02-25得票数 0

2回答

为什么随机森林中的更多特征会显著降低准确率？

scikit-learn、random-forest

我使用sklearn的随机森林模块来预测基于50个不同维度的值。当我将维数增加到150时，模型的精度会急剧下降。我希望更多的数据只会使模型更准确，但更多的功能往往会使模型更不准确。我怀疑拆分可能只在一个维度上进行，这意味着在构建树时，实际上更重要的特征得到的关注较少。这可能是原因吗？

浏览 0提问于2019-01-03得票数 0

1回答

机器学习有哪些算法？

机器学习、神经网络、深度学习、人工智能、编程算法

浏览 353提问于2019-02-15

回答已采纳

4回答

在交叉验证中，目标变量的分布值可以用作特性吗？

accuracy、methods

我遇到了一个SVM预测模型，其中作者使用目标变量的概率分布值作为特征集中的一个特征。例如：这合法吗？这听起来像是作弊。我认为在计算特性时，您必须将目标变量排除在测试集中，以避免“欺骗”

浏览 0提问于2015-01-26得票数 1

回答已采纳

1回答

基于相似度的文本分类分析

python、logistic-regression、similarity、naive-bayes-classifier、text-classification

我已经阅读了大量关于文本分类和不同方法/模型的文献，特别是使用Python语言，但我可能仍然缺少一些关于如何构建模型和所涉及的步骤的内容。我有多个数据集，每个数据集都涉及特定的主题。这些数据集包括目前手动标记的新闻和假新闻。我已经收集了不同来源的类似主题的文本(使用</em

浏览 0提问于2020-05-11得票数 0

2回答

将SPSS统计数据树模型导入SPSS建模器？

export、compatibility、spss、decision-tree、spss-modeler

我试图使用SPSS来测试在SPSS统计中建立的决策树模型，但是我找不到任何简单的方法(只有xml导出，以后不能导入)。我还尝试使用相同的数据集和设置(CHAID，父分支中的停止规则最小记录= 100，子分支中的50，等等)在Modeler中重新构建模型。但结果完全不同。我使用了3个输入变量，这些变量在SPSS<

浏览 4提问于2016-01-03得票数 1

回答已采纳

1回答

这是改进统计模型的正确方法吗？

classification

我正在建立相当数量的统计模型-文本分类器和序列taggers。统计模型在特征上是线性的- Logistic回归和线性链一阶CRF。这些模型经历了几个阶段，从一个粗糙的初始版本一直到成熟的生产模型。给定一个规范和一些数据集(通常带有不完整的注释、噪声标签和特性)，我从一个小的、手工标记的数据集

浏览 0提问于2015-10-30得票数 1

1回答

哪些类型对应于离散分布和连续分布？

我是R和一般编程的新手，我对分类变量、连续变量和离散变量感到困惑。提前谢谢。

浏览 4提问于2022-09-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云