前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >手把手教你做倾向评分匹配

手把手教你做倾向评分匹配

作者头像
百味科研芝士
发布于 2019-07-17 03:18:26
发布于 2019-07-17 03:18:26
5K0
举报
文章被收录于专栏:百味科研芝士百味科研芝士

各位科研芝士的朋友大家好,今天和大家分享一下新的知识点—PSM,或许大家早已听过这个名词了,或许你对它还是半知半解,不过没关系,希望可以通过今天的帖子帮助你对该名词有一定的理解。

PSM

PSM英文全称为Propensity Score Matching,意思是倾向匹配得分,炸一听?多么有学术气息呀

那么如何通俗的理解PSM模型呢?

举个例子,假设一列病人样本,一组服用了药物A,我们想要知道,如果病人服用了药物A,那么他生活质量是否提高了?他的生存时间是否提高了?

但我们首先面临一个问题,究竟是因为药物A的影响,所以生活质量和生存时间均提高了,还是由于患者本身所产生的差异。

此时可以通过寻找另一列病人样本,服用的则是安慰剂对照。也就是说当我们想研究药物A是否对生活质量和生存时间产生影响时,首先需要找两列在其他各方向均差不多的病人,如果此时二者在生活质量和生存时间上依然产生了差别,那么可以认为这种差异是由是否服用药物A这个因素造成的。这样的方法有一个专业的名词,即PSM。

官方的话语则是:为了探讨某因素(暴露或干预,下面统称处理因素)与结局的关系,需要设立对照组进行比较,其目地是控制非处理因素的干扰,突显处理因素的的效应。

但是在观察性研究中(如队列研究),研究对象是非随机分配的,这就会使混杂因素在两组中分配不均匀,导致处理因素和结局的关系受到混杂因素的干扰。

近几年在国外研究中用的比较广泛的控制混杂因素的方法—倾向性评分匹配(propensity score matching, PSM)。

之前我们平台推出了基于SPSS计算PSM,那我们今天采用R语言计算PSM,测试数据在后台回复"PSM"提供。

今天PSM推荐的包为MatchIt,一听名字就是做匹配用的。

下面进入正题,今天我们看看如何用MatchIt,进行PSM分析:

1. 安装并加载包,关于包的安装,已经讲过多次,直接上代码:

2.数据读取:

数据如下:该数据包括四列信息,分别是年龄,性别,样本类型和病人的ID

接着我们查看样本组成

我们发现该数据集中case样本包括250个,control样本包括1000个,接着我们需要对这两类样本进行匹配,匹配的协变量主要是性别因素和年龄因素。

3. 数据匹配,采用matchit函数,首先要定义一个逻辑变量,这一点非常重要:

生存好逻辑变量之后,接着我们需要进行匹配

Matchit函数的第一个对象为一个表达式,因为进行了逻辑变量分组,接着把需要考虑的协变量放进去,这里主要是性别和年龄,method部分是我们要采取哪种方法进行匹配,一般默认为nearest,表示采取最近邻匹配法,该方法是PSM中最常见也最基本的方法,该方法是将处理组和对照组倾向性评分中最接近的个体进行匹配,当处理组个体全部匹配后,匹配结束,ratio代表匹配比例,当ratio=1,代表进行1:1匹配。

匹配结果展示:

因为我们是250和1000进行匹配,可以看到在control 里面还有750个未匹配到。

5. 配对样本整理

我们按照组别排序,对配对样本整理,便看到左边三列是control组,右边三列是case组,

比如control4和case1进行了配对,则完成了样本之间的配对。

Ok,今天的推文就到这,我们分享了如何在基于R语言的PSM的计算,希望能对大家有所帮助,最后,欢迎大家多多交流。

—END—

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 百味科研芝士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
倾向性评分法(propensity score method,PSM)
倾向评分(propensity score,PPS)这一概念最早出现在1983年rosenbaum与rubin合写的一篇名为《倾向评分对于观察研究中因果效应的中心作用》的论文中。2010年之后,这一方法日益受到人们的关注。国际上越来越多的研究者将倾向性评分法应用到流行病学、健康服务研究、经济学以及社会科学等许多领域。
医学木匠
2020/12/11
13.8K0
倾向性评分法(propensity score method,PSM)
花二十万做的大队列转录组告诉你不能这样设计课题啊!
比如学员就反馈了2020的一个美国纽约的哥伦比亚大学的阿兹海默症研究文章:《T Cell Responses to Neural Autoantigens Are Similar in Alzheimer’s Disease Patients and Age-Matched Healthy Control》, 对应的数据集是GSE153104,可以看到研究者关注的应该是Alzheimer’s disease (AD),和healthy controls (HC).的转录水平的变化,而且还具体到了不同的细胞亚群:
生信技能树
2024/11/21
790
花二十万做的大队列转录组告诉你不能这样设计课题啊!
因果推断文献解析|A Survey on Causal Inference(3)
上一篇ZZ介绍了本篇综述的背景知识和相关数学符号表示,了解到了本篇文章主要是关于基于“潜在结果框架”的因果推断方法综述,并且明确了样本,策略,潜在结果,混杂和混杂带来的辛普森悖论和选择性偏差等概念。下面我们书接上文,进入到解决因果推断问题具体的方法的解析,首先附一下上篇内容:因果推断文献解析|A Survey on Causal Inference(2),论文原文点击文末阅读原文即可查看。
用户8612862
2021/05/13
1.9K0
因果推断文献解析|A Survey on Causal Inference(3)
因果推断笔记——python 倾向性匹配PSM实现示例(三)
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二) 因果推断笔记——因果图建模之微软开源的dowhy(一)
悟乙己
2021/12/07
4.9K0
因果推断笔记——python 倾向性匹配PSM实现示例(三)
因果推断(二)倾向匹配得分(PSM)
前文介绍了如何通过合成控制法构造相似的对照组,除此之外,也可以根据倾向匹配得分(PSM)进行构造,即为每一个试验组样本在对照组中找对与之相似的样本进行匹配。PSM 通过统计学模型计算每个样本的每个协变量的综合倾向性得分,再按照倾向性得分是否接近进⾏匹配。本文参考自PSM倾向得分匹配法[1]。
HsuHeinrich
2023/08/10
8460
因果推断(二)倾向匹配得分(PSM)
最强的倾向性评分方法—— 重叠加权(Overlap Weighting,OW)
不知道大家是否记得,前面的文章给大家介绍过一种用于降低混杂的实用方法——倾向性评分法(Propensity Score Method,PSM)。倾向性评分(PS)的定义在这里就不赘述了,有兴趣或者想重温一下的朋友可以阅读一下我们之前发的文章。倾向性评分只是一个用于综合需要调整变量的分数,而综合完之后我们要用传统的方法去调整倾向性评分,常用的方法有4种,匹配、加权、调整以及分层。那么重点来了,相信很多朋友在阅读完之前的文章都会有一个同样的问题——谁是4个方法中的大哥?
医学木匠
2021/01/14
8.1K1
最强的倾向性评分方法—— 重叠加权(Overlap Weighting,OW)
R语言倾向性评分:匹配
倾向性评分(Propensity Score, PS)是一种控制混杂因素的统计学方法,通过倾向性评分的方法,可以把基线控制在可比的水平,这样就可以比较处理因素带来的差异了。
医学和生信笔记
2023/02/14
2.8K1
R语言倾向性评分:匹配
手把手掌握临床研究的必备绘图技能:列线图
列线图(Alignment Diagram),又称诺莫图(Nomogram图),它是建立在多因素回归分析的基础上,这里的回归既包括Logistic回归也包括cox回归,通过回归分析将多个预测指标进行整合,然后采用带有刻度的线段,表达预测模型中各个变量之间的相互关系。
百味科研芝士
2019/12/24
4K0
因果推断笔记——自整理因果推断理论解读(七)
之前有整理过一篇:因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二) 不过,那时候刚刚开始学,只能慢慢理解,所以这边通过一轮的学习再次整理一下手里的笔记。
悟乙己
2021/12/07
10.9K0
因果推断笔记——自整理因果推断理论解读(七)
一文读懂因果推测、倾向模型(结合实例)
原文题目:Propensity Modeling, Causal Inference, and Discovering Drivers of Growth 作者:Edwin Chen 翻译:张逸 校对:卢苗苗 本文共5400字,建议阅读9分钟。 本文通过举例为你介绍因果推测方法、倾向建模及增长的驱动因素。 在正文之前,先想象这样一个场景。 你刚开始一份新工作,而且最近看了《僵尸世界大战》这部电影,正处于一种怀疑人生的状态。再加上前不久你的两个初创公司因为缺乏数据开不下去了,所以你看什么都不太顺眼。 你最先
数据派THU
2018/06/07
1.1K0
「经验」不适合做AB实验的场景下,通过这4种方式来衡量策略效果
在日常产品迭代过程中,我们常常需要去验证某个功能、策略的改动是否符合预期,是否可以完全替代现有的方案。小流量实验往往是最常用、最直接验证因果的方式。然而有些时候,由于忘记开展实验、实验成本较高等因素,没有对策略进行AB实验,但又希望评估策略效果,这个时候,则可以通过其他因果推断方式进行佐证。
小火龙说数据
2024/03/20
4810
「经验」不适合做AB实验的场景下,通过这4种方式来衡量策略效果
R语言倾向性评分:回归和分层
倾向性评分有4种应用,前面介绍了倾向性评分匹配及matchIt和cobalt包的使用:R语言倾向性评分:匹配
医学和生信笔记
2023/02/14
1.4K0
R语言倾向性评分:回归和分层
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二)
《Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution》这篇论文说到了因果推断的三层。
悟乙己
2021/12/07
4.4K0
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二)
AB实验的踩坑之路
AB实验是互联网行业产品功能优化和迭代常用的工具,覆盖了大部分的需求场景,如内容推荐、搜索、商业化、UI迭代等。从统计学的角度出发,AB实验本质上是使用假设检验去证明假设是否成立,从而达到验证我们想法的目的。本文记录了在日常使用AB实验中涉及到的一些比较常见的陷阱。
曲奇
2022/05/09
1.3K0
AB实验的踩坑之路
因果推断笔记——数据科学领域因果推断案例集锦(九)
这部分只是抛砖引玉贴一些看到的非常好的业内方案。 因果推断在很多领域都有很有意思的应用,值得收藏。
悟乙己
2021/12/07
4.7K0
因果推断笔记——数据科学领域因果推断案例集锦(九)
因果推断笔记——双重差分理论、假设、实践(四)
本节参考: 因果推断综述及基础方法介绍(一) 双重差分法(DID)的原理与实际应用
悟乙己
2021/12/07
2.9K0
因果推断笔记——双重差分理论、假设、实践(四)
有些差异本来就是不应该很明显
比如其中一个学员就反馈了一个看起来是难题的表达量芯片:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE98793
生信技能树
2024/12/30
810
有些差异本来就是不应该很明显
干货 | 携程火车票基于因果推断的业务实践
携程作为旅游平台,跟用户需求息息相关,理解和识别各个策略/系统对转化/收益的因果关系尤为重要,在这个过程中需要将影响因变量的其他因素进行控制,但这些因素通常是复杂且难以测量的。在关系识别困难的情况下,如何使用更为科学的方法,对策略进行微观和宏观的建模分析,如何系统性的评估各种策略的长期影响,是要解决的重要问题。
携程技术
2023/09/06
8680
干货 | 携程火车票基于因果推断的业务实践
听倦了的随机分组,原来是这么回事儿
随机对照试验可以得到较为可靠的证据,在预防医学研究和临床医学研究中扮演非常重要的角色。人体试验中,实验组和对照组受试对象的特征(如年龄、性别、是否服药、是否有运动习惯等等)常成为研究过程中的混杂因素,对研究结果产生重要影响。
用户6317549
2022/02/28
3.3K0
听倦了的随机分组,原来是这么回事儿
独家 | 清华崔鹏团队KDD论文一作解读:在大数据背景下进行因果效应评估
AI科技评论按:ACM SIGKDD 国际会议(简称KDD)是由ACM的知识发现及数据挖掘专委会(SIGKDD)主办的数据挖掘研究领域的顶级学术会议。AI科技评论今年也来到了KDD 2017现场做了覆盖和报道。参与本次KDD的清华大学博士生况琨受AI科技评论独家邀请,介绍他与导师杨士强博士、崔鹏博士、黎波(清华大学)和蒋朦(UIUC)的工作《Estimating Treatment Effect in the Wild via Differentiated Confounder Balancing》。
AI科技评论
2018/03/14
1.6K0
独家 | 清华崔鹏团队KDD论文一作解读:在大数据背景下进行因果效应评估
推荐阅读
相关推荐
倾向性评分法(propensity score method,PSM)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档