我有一个刚开始的计划,我只是学习机器学习和统计,所以我有点不知道从什么方法开始是好的,如果这不属于这里,我很抱歉。
数据集是不同的患者携带某种疾病,每个病人有不同的生物标志和物理测量,如心率在不同的时间点,直到死亡,如果他们确实死亡。我被告知,目标是确定关键的特征,这将与一个病人的死亡有关。
我只有33名病人,其中只有16名死亡。但不管病人的生物标志物来自我有300多个时隙,我首先尝试把它作为一个二元分类问题,从其他点分类‘死亡’点。问题是:
对于不平衡,我尝试过抽样,但不像我想的那样有效,然后我随机地少采样,得到了不错的结果,但是数据集更小,所以我不确定这是否是个好主意。
简单的二元分类模型,如高斯朴素贝叶斯和Logistic回归,即使在数据不平衡的情况下也没有问题,但它们(至少据我所知)并没有给出一种识别特征重要性的方法。
所以我的主要问题是:
发布于 2019-04-01 22:25:56
如果您的目标是识别重要的特性,我会说,go选择一个决策树,它在选择特性以分割内部节点时,内在地计算这些特性的重要性/分离能力。您还可以选择一组决策树,如RandomForest,它将根据其所有树的平均杂质减少来返回特征重要性。
这篇文章可以帮助你建立一个基本的实验。
https://datascience.stackexchange.com/questions/48372
复制相似问题