我目前正在处理大量的健康保险索赔数据,其中包括一些实验室和制药索赔。然而,数据集中最一致的信息由诊断(ICD-9CM)和程序代码(CPT、HCSPCS、ICD-9CM)组成。
我的目标是:
我看过像遗产健康奖里程碑论文这样的东西,并从他们身上学到了很多,但是他们专注于预测住院人数。
下面是我的问题:你认为有什么方法能很好地解决像这样的问题?还有,哪些资源最有助于了解与保健和临床医学相关的数据科学应用和方法?
编辑#2以添加明文表:
慢性肾脏疾病(.any)是慢性肾脏疾病的靶点,“慢性肾脏疾病”(.isbefore.ckd)是指他们在任何时候都有这种疾病,而“慢性肾病”(.isbefore.ckd)是指他们在第一次诊断CKD之前就有这种情况。其他缩略语对应于ICD-9CM码组所识别的其他条件。此分组在导入过程中在SQL中发生。除patient_age外,每个变量都是二进制变量。
发布于 2014-08-01 14:08:13
我从来没有研究过医疗数据,但从一般的推理来看,我认为医疗保健中的变量之间的关系相当复杂。不同的模型,如随机森林模型、回归模型等,只能捕捉到部分关系,而忽略了其他模型。在这种情况下,使用一般的统计探索和建模是有意义的。
例如,我要做的第一件事就是找出可能的前兆条件和诊断之间的相关性。在慢性肾脏疾病的病例中,有多大比例的病例出现了长时间流感?如果它是高的,它不一定意味着因果关系,但给了相当好的思考,并有助于更好地理解不同条件之间的关系。
另一个重要步骤是数据可视化。CKD发生在男性多于女性吗?他们的居住地呢?CKD病例按年龄分布如何?很难将大型数据集作为一组数字来掌握,绘制出来使其变得更容易。
当您知道发生了什么事时,执行假设检验检查您的假设。如果你拒绝零假设(基本假设)而支持替代假设,恭喜你,你已经做了一些“真实的事情”。
最后,当您对数据有了很好的理解时,请尝试创建完整的模型。它可能是一些通用的东西,比如PGM (例如手工构建的贝叶斯网络),或者更具体的东西,比如线性回归或支持向量机,或者任何东西。但是无论如何,您都已经知道这个模型如何与您的数据相对应,以及如何度量它的效率。
作为学习统计方法的良好开端资源,我推荐Sebastian的统计介绍课程。虽然它非常基本,不包括高级主题,但它描述了最重要的概念,并系统地理解了概率论和统计。
发布于 2014-08-11 18:33:37
虽然我不是一名数据科学家,但我是一名流行病学家,从事临床工作。您的研究问题没有具体说明一个时间段(即在1年、10年、一生中发生CKD的几率)。
通常,在考虑建模(单变量分析、双变量分析、colinearity检查等)之前,我会经历许多步骤。然而,最常用的方法试图预测一个二进制事件(使用连续或二进制变量)是logistic回归。如果你想把CKD作为实验室值(尿白蛋白,eGFR),你可以使用线性回归(连续结果)。
虽然所使用的方法应该根据您的数据和问题提供信息,但临床医生习惯于看到比数比和风险比,因为这些是医学期刊(如NEJM和JAMA )中最常见的关联度量。
如果您正从人类健康的角度(而不是商业智能)来处理这个问题,那么这个Steyerberg的临床预测模型是一个很好的资源。
发布于 2014-07-31 16:39:37
找出最有影响的前兆疾病(共患病),如慢性肾脏疾病
我不确定是否有可能确定最有影响的条件;我认为这将取决于您所使用的模型。就在昨天,我对同一数据拟合了一个随机森林和一个增强的回归树,每个模型对变量的顺序和相对重要性都有很大的不同。
https://datascience.stackexchange.com/questions/866
复制相似问题