首页
学习
活动
专区
工具
TVP
发布

科研猫

专栏成员
226
文章
667626
阅读量
132
订阅数
随机对照试验:试验方法部分的设计要素及撰写思路
学术研究发展了这么多年,前人已经为我们积累了丰厚的科学经验,形成了多种常见的研究(学术文章)类型,并且形成了固定的写作套路,甚至产生了标准,譬如 Meta 分析要严格对照 PRISMA guidelines 进行写作。
用户6317549
2022-02-28
4.6K0
还以为大数据分析只是让你多买点东西吗?
据统计显示,我们每个人的手机里都至少安装有30个App。每个App开始安装使用时,都会让你勾选上万字的免责声明。我想,只要你想用这个App,多数情况下,都是看也不看直接同意。其实,我们也不得不选择同意,然后假装忘记一切,安心使用。
用户6317549
2020-11-05
4630
科研猫小课堂:敲黑板!竞争风险模型应该如何分析?
在观察某一事件是否发生时,如果该事件受到其他事件的阻碍,在这种所谓的竞争风险研究中可能会有多个结果事件,有些结果会阻止感兴趣的事件发生或影响其发生的概率。所有形成竞争关系的结果事件,互为竞争的风险事件。
用户6317549
2020-07-28
3.7K1
基于R的竞争风险模型的列线图
将竞争风险模型的cmprsk包加载到R中,使用cuminc()函数和crr()函数可以进行考虑竞争风险事件生存数据的单变量分析和多变量分析。以往推文我们已经详细描述了基于R语言的实现方法,这里不再赘述。那么,您如何看待竞争风险模型呢?如何绘制竞争风险模型的列线图?在这里,我们演示如何绘制基于R的列线图。
用户6317549
2020-07-22
4.1K0
LASSO回归姊妹篇:R语言实现岭回归分析
前面的教程中,我们讲解了在高通量数据中非常常用的一种模型构建方法,LASSO回归(见临床研究新风向,巧用LASSO回归构建属于你的心仪模型)。作为正则化方法的一种,除了LASSO,还有另外一种模型值得我们学习和关注,那就是岭回归(ridge regression)。今天,我们将简要介绍什么是岭回归,它能做什么和不能做什么。在岭回归中,范数项是所有系数的平方和,称为L2-Norm。在回归模型中,我们试图最小化RSS+λ (sumβj2)。随着λ增加,回归系数β减小,趋于0,但从不等于0。岭回归的优点是可以提高预测精度,但由于它不能使任何变量的系数等于零,很难满足减少变量个数的要求,因此在模型的可解释性方面会存在一些问题。为了解决这个问题,我们可以使用之前提到的LASSO回归。
用户6317549
2020-07-17
6.2K0
确定你会统计?大老粗别走,教你如何识别「离群值」和处理「缺失值」!
无论是前瞻性数据收集还是回顾性数据收集,数据集中通常都会出现离群值或缺失值。对于统计学家来说,离群值和缺失值通常是一个棘手的问题,如果处理不当可能会导致错误。离群值可能会导致我们的结果偏离真实结果,而缺失值造成的信息损失可能会导致建模失败。因此,在执行数据分析之前,正确识别离群值并处理缺失值非常重要。本推文讨论的内容应该在建模之前执行。虽然本推文在整个统计模型系列中较为置后,却至关重要,望警醒。
用户6317549
2020-07-13
4.2K0
【绘图】高维数据可视化必备图形-平行坐标图
正如在这个图形中,可以清晰的看到,某些观察值随着组别的变化而产生的变化。不过,随着基因组大数据的不断发展和应用,在很多科研绘图场景中,高维数据的处理变得越来越重要。很多时候我们接触到的数据。不仅仅是几个样本和十几个测量值而已,往往是成百上千个基因或者检测结果。如此高维的数据,如果我们想要观察他们的变化趋势,应该使用何种图形呢?
用户6317549
2020-06-29
1.6K0
【姊妹篇】预测模型研究利器-列线图(Cox回归)
人类总是痴迷于“算命”。无论是中国文化中的“算命”,还是西方文化中的“占星术”,都显示出人们对此的热情。在这一部分,我们将讨论另一种科学的“算命”。 该模型将用于评估患者的预后。作为一名肿瘤科医生,在临床实践中你将面临癌症患者提出的诸如“我能活多久”之类的问题。这是一个令人头痛的问题。大多数情况下,我们可以根据相应疾病的临床分期来判断患者的中位生存时间。实际上,临床分期是我们对这些患者进行生存预测的基础,换句话说,临床分期就是“预测模型”。我们根据患者的临床分期用中位生存期来回答这个问题。但是,这样做可能会引出新的问题,因为用一群人的中位生存期来预测特定个体的生存时间可能并不那么准确,无法判断该特定个体的预后是更好还是更差。
用户6317549
2020-05-29
2.9K0
【临床研究】一个你无法逃避的问题:多元回归分析中的变量筛选
临床模型研究,说到底是做一个模型,那么模型应该如何纳入自变量,纳入哪些自变量,这都是至关重要的问题。线性回归,逻辑回归和Cox比例风险回归模型是被广泛使用的多元回归分析方法。我们在前面的几篇文章中解释过他们的统计学意义、应用及结果释义。但是我们很少讨论自变量筛选的方法,这些方法在数据分析和撰写论文时应用较为混乱,却十分重要。本集整理并总结了前沿的自变量筛选方法,我们来一观究竟。
用户6317549
2020-05-15
11K1
临床研究新风向,巧用LASSO回归构建属于你的心仪模型
对于医生来说,如果有某种“特定功能”来预测患者是否会有未知结果,那么许多医疗实践模式或临床决策都会改变。在临床上,几乎每天我们都会听到这样的叹息:“如果我能提前知道,我当然不会这样做!”。举个简单的例子,如果我们可以预测患有恶性肿瘤的患者对某种化疗药物耐药,那么我们将不会选择给患者服用该药物;如果我们可以预测患者在手术过程中可能出现大出血,那么我们将谨慎操作并为患者准备足够的血液制品;如果我们可以预测高脂血症患者不会从某些降脂药物中受益,那么我们可以避免许多无意义的医疗干预。
用户6317549
2020-04-27
4K0
批量相关分析,听说你找好久了?
相关关系:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。
用户6317549
2020-04-16
2.3K0
【系列课】机器学习算法基础,从聚类开始
机器学习算法可以分为三大类:监督学习、无监督学习和强化学习。监督学习可用于一个特定的数据集(训练集)具有某一属性(标签),但是其他数据没有标签或者需要预测标签的情况。无监督学习可用于给定的没有标签的数据集(数据不是预分配好的),目的就是要找出数据间的潜在关系。强化学习位于这两者之间,每次预测都有一定形式的反馈,但是没有精确的标签或者错误信息。下面我们就把机器学习中常用的十几种算法给大家罗列一下,也是我们后续学习的课程目录的主要内容:
用户6317549
2020-03-13
9360
【系列课】掌握机器学习,引领科研潮流
综上所述,我们觉得有必要,也有义务,通过一系列的课程,为大家详细讲解一下机器学习,这套课程,我们暂且命名为:
用户6317549
2020-03-13
4000
WGCNA-最短教程掌握高级分析
先给大家讲讲WGCNA的精髓,其实就一句话:关联表型和基因。WGCNA通过将基因进行分组(module),把基因模块和表型进行关联,实现了快速锁定核心基因的目的。
用户6317549
2019-12-30
2.9K0
R语言从入门到精通:Day17 (ggplot2绘图)
四种常见的作图系统中,ggplot2包基于一种全面的图形“语法”,提供了一种全新的图形创建方法。这个包极大地扩展了R绘图的范畴,提高了图形的质量。它通过全面一致的语法帮助我们将多变量的数据集进行可视化,并且很容易生成R自带图形难以生成的图形。
用户6317549
2019-12-17
5.1K0
【科研猫·统计】ROC曲线(2):一码到底
ROC曲线作为评估模型效能的工具,其使用频率是极其高的,平时我们在做ROC分析的时候会遇到很多问题,比如:
用户6317549
2019-12-17
3K2
R语言从入门到精通:Day16(机器学习)
在上一次教程中,我们介绍了把观测值凝聚成子组的常见聚类方法。其中包括了常见聚类分析的一般步骤以及层次聚类和划分聚类的常见方法。而机器学习领域中也包含许多可用于分类的方法,如逻辑回归、决策树、随机森林、支持向量机(SVM)等。本次教程的内容则主要介绍决策树、随机森林、支持向量机这三部分内容,它们都属于有监督机器学习领域。有监督机器学习基于一组包含预测变量值和输出变量值的样本单元,将全部数据分为一个训练集和一个验证集,其中训练集用于建立预测模型,验证集用于测试模型的准确性。这个过程中对训练集和验证集的划分尤其重要,因为任何分类技术都会最大化给定数据的预测效果。用训练集建立模型并测试模型会使得模型的有效性被过分夸大,而用单独的验证集来测试基于训练集得到的模型则可使得估计更准确、更切合实际。得到一个有效的预测模型后,就可以预测那些只知道预测变量值的样本单元对应的输出值了。
用户6317549
2019-11-29
1.1K0
WGCNA共表达网络分析-让你的文章闪耀起来
WGCNA(Weighted Gene Co-Expression Network Analysis)称为加权基因共表达网络分析是一种适合进行多样本复杂数据分析的工具,通过计算基因间表达关系,鉴定表达模式相似的基因集合(module),解析基因集合与样品表型之间的联系,绘制基因集合中基因之间的调控网络并鉴定关键调控基因。其适合应用于复杂的多样本转录组数据,是发表转录组高分文章的必备技能。
用户6317549
2019-11-26
4K0
R语言从入门到精通:Day15(聚类分析)
聚类分析是一种数据归约技术,旨在揭露一个数据集中观测值的子集。它可以把大量的观测值归约为若干个类。
用户6317549
2019-11-23
2.1K0
R语言从入门到精通:Day14(PCA & tSNE)
主成分分析(Principle component analysis, PCA)前面我们已经用两期教程跟大家讲过理论和实际绘图(在线主成分分析Clustvis和主成分分析绘图)。今天,我们就从PCA的数理统计层面入手,去讲讲完整的PCA应该怎么操作。
用户6317549
2019-11-11
1.2K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档