首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何利用机器学习在不平衡小数据集中发现重要的生物标志物

如何利用机器学习在不平衡小数据集中发现重要的生物标志物
EN

Data Science用户
提问于 2019-04-01 20:06:26
回答 1查看 65关注 0票数 0

我有一个刚开始的计划,我只是学习机器学习和统计,所以我有点不知道从什么方法开始是好的,如果这不属于这里,我很抱歉。

数据集是不同的患者携带某种疾病,每个病人有不同的生物标志和物理测量,如心率在不同的时间点,直到死亡,如果他们确实死亡。我被告知,目标是确定关键的特征,这将与一个病人的死亡有关。

我只有33名病人,其中只有16名死亡。但不管病人的生物标志物来自我有300多个时隙,我首先尝试把它作为一个二元分类问题,从其他点分类‘死亡’点。问题是:

  1. 数据不平衡,
  2. 如何解释模型以发现最重要的特性。

对于不平衡,我尝试过抽样,但不像我想的那样有效,然后我随机地少采样,得到了不错的结果,但是数据集更小,所以我不确定这是否是个好主意。

简单的二元分类模型,如高斯朴素贝叶斯和Logistic回归,即使在数据不平衡的情况下也没有问题,但它们(至少据我所知)并没有给出一种识别特征重要性的方法。

所以我的主要问题是:

  1. 解决这个问题的最佳方法是什么,或者当您想要识别最有影响力的特性(数据度量)时,通常哪种方法可以工作。
  2. 如果我真的想把它作为一个二元分类问题来处理,我可以采取什么方法来对抗阶级不平衡呢?
EN

回答 1

Data Science用户

发布于 2019-04-01 22:25:56

如果您的目标是识别重要的特性,我会说,go选择一个决策树,它在选择特性以分割内部节点时,内在地计算这些特性的重要性/分离能力。您还可以选择一组决策树,如RandomForest,它将根据其所有树的平均杂质减少来返回特征重要性。

这篇文章可以帮助你建立一个基本的实验。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/48372

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档