首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

跟大家请教一下数据挖掘的关联强度

今天审一个稿子,谈到了使用数据挖掘中的关联强度作为研究疾病问题的方法,由于本人不大熟悉,就查了一下这篇文章的前一个文献,那是2013年发表在《中国卫生统计》杂志上的一篇文章,这个方法其实关键就是三个指标:1)规则支持度,就是疾病A与疾病B的联合概率;2)置信度是A下的B的条件概率;3)提升比,即B的条件概率比上B的非条件概率。

文章就是通过算得这几个指标,描述疾病间的相关,比如高血压与高血脂等等。看了文章后,我有点疑惑,很可惜,如果那篇文章也是我审的,我一定会向作者好好学习一下。可是现在,我只好发布在这里,盼望有缘人帮我一把。

在那篇文章里有几件事是困惑我的:

一、为啥要用这个关联强度而不直接用回归呢?我觉得可以使用普通的相关系数来解决呀?可以采用回归呀?最起码回归有更完善的处理共线性等问题的手段;

二、无论该文献还是现在审的这篇,都提到了用随机样本,那我就想问一下,既然是样本,难道不存在一个样本推断总体的问题么?可以直接就用这几个度说事么?文一点的说法就是:光有点估计,没有区间有意义么?

三、也是最关键的一点,疾病的相互关系与购物不同,甚者发病的先后次序你都搞不清楚,那么你又怎么来使用条件概率呢?

因此,真心希望懂的人赐教一二,就此谢过!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180402G0WFC600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券