首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R数据科学整洁之道:使用 tibble 实现简单数据框

既生 data.frame,何生 tibble? tibble 是一种简单数据框,它对传统数据框功能进行了一些修改,其所提供简单数据框更易于 tidyverse 中使用。...tidyverse 许多函数都可以创建 tibble,因为 tibble 是 tidyverse 标准功能之一。 可以通过 tibble() 函数使用一个向量来创建新 tibble。...() 函数功能要少得多:它不能改变输入类型(例如,不能将字符串转换为因子)、变量名称,也不能创建行名称。...可以 tibble 中使用在 R 无效变量名称(即不符合语法名称)作为列名称。例如, 列名称可以不以字母开头,也可以包含特殊字符(如空格)。...最后总结 tibble 相对于数据框来说,简单,但方便使用,两者主要区别是: tibble 不能创建行名。 tibble 不能改变输入类型(例如,不能将字符串转换为因子)、变量名称。

1.6K10

RNA-seq 详细教程:Wald test(10)

对比可以用两种不同方式指定(第一种方法常用):对比可以作为具有三个元素字符向量提供:设计公式(感兴趣)因素名称,要比较两个因素水平名称。最后给出因子水平是比较基准水平。...因此,我们将使用第一种方法来指定对比并创建一个字符向量:contrast_oe <- c("sampletype", "MOV10_overexpression", "control")2....当我们谈论基因级过滤时,我们将详细地描述这一点。返回给我们结果是一个 DESeqResults 对象,它是 DataFrame 一个简单子类。...要生成缩小 log2 倍变化估计值,您必须使用函数 lfcShrink() 结果对象(我们将在下面创建)上运行一个额外步骤。...DESeq2 包提供了一个简单函数来生成 MA 图。

1.2K40
您找到你想要的搜索结果了吗?
是的
没有找到

RNA-seq 详细教程:Wald test(10)

对比可以用两种不同方式指定(第一种方法常用): 对比可以作为具有三个元素字符向量提供:设计公式(感兴趣)因素名称,要比较两个因素水平名称。最后给出因子水平是比较基准水平。...因此,我们将使用第一种方法来指定对比并创建一个字符向量: contrast_oe <- c("sampletype", "MOV10_overexpression", "control") 2....当我们谈论基因级过滤时,我们将详细地描述这一点。 ” 返回给我们结果是一个 DESeqResults 对象,它是 DataFrame 一个简单子类。...要生成缩小 log2 倍变化估计值,您必须使用函数 lfcShrink() 结果对象(我们将在下面创建)上运行一个额外步骤。...DESeq2 包提供了一个简单函数来生成 MA 图。

74720

【数据分析 R语言实战】学习笔记 第十一章 对应分析

对应分析是一种视觉化数据分析方法,其基木思想是将一个联列表行和列各元素比例结构以点形式较低维空间中表示出来,优点在于能够将几组看不出任何联系数据,通过视觉上可以接受定位图展现出来,使用起来直观...11.2.1理论基础 对应分析是寻求样木(行)与指标(列)之间联系低维图示法,其关键是利用一种数据变换方法,使含有n个样本观测值和m个变量原始数据矩阵x变成另一个矩阵z, z是一个过渡知阵,接下来计算中使用...对应分析是一种可视化多元统计方法,它主要是通过图形分析来得出结论,R我们使用函数biplot()可以提取因子分析散点图,以直观地展示样本和变量各个水平之间关系。 ?...不同类型消费者心目中,哪一个品牌受欢迎?当数据量较小时,可以使用列联表来分析不同类型消费者选择品牌上差异。...但是列联表存在一个问题:当变量很多且每个变量又有多个类别时,数据量很大,很难直观地发现变量内在联系,这时对应分析就是一种有效解决方案。 ?

1.6K31

数据分析必备:掌握这个R语言基础包1%功能让你事半功倍!(附代码)

data.frame代表数据集R呈现格式,这里指的是数据框格式,读者可以将其设想为常见Excel格式。...下面的代码及运行结果演示非常简单,使用read.table读取上一节一个数据集,实现思路是每次只增加一个read.table函数参数。...不过在某些特殊情况下,例如,一个数据文件同时存在两个或两个以上数据集,那么保留空白行可能会有助于后续数据处理。 表1-5演示就是一个比较特殊例子。...理论上来讲,默认值仍是数据观测值一种,虽然原始数据其可能与空白一样没有显示,但是它可以通过其他手段来进行补齐。...小知识:“[”是baseRExtract一种R使用过程,这是必须掌握和理解函数之一。 编辑:王菁 校对:林亦霖

3.3K10

R In Action|创建数据集

简单介绍数据对象类型及文件读入,输出。 一、对象类型: 包括标量、向量、矩阵、数组、数据框和列表。 1)向量(vector):用于存储数值型、字符型或逻辑型数据一维数组。...array函数创建: myarray <- array(vector, dimensions, dimnames) 其中:vector包含了数组数据,dimensions是一个数值型向量,给出了各个维度下标的最大值...data.frame()创建: mydata <- data.frame(col1, col2, col3,…) 其中列向量col1, col2, col3,… 可为任何类型(如字符型、数值型或逻辑型...5)因子(factor):类别(名义型)变量和有序类别(有序型)变量R称为因子(factor),绘图时候重要。 6)列表(list)是R数据类型中最为复杂一种。...patientdata$age && patientdata[,2] 一样结果 另:每个变量名前都键入一次patientdata$麻烦,可以走一些捷径。

1.5K40

R语言入门之频率表和列联表

创建频率表和列联表 R语言提供了许多方法来创建频率表和列联表,在这里我们主要介绍三种常用函数,它们虽有各自特点,但大同小异,大家在学习能细细体会出来。 1....函数table() #首先自己创建训练数据(这里数据是随手编写,不具有科学性) #所有的数据都是分类变量(这里选择是二分类变量) #建立2维频率表 A <- c(rep("male",15),rep...B C <- c(rep("smoker",26), rep("nonsmoker",24)) # 创建变量C mydata <- data.frame(A,B,C) # 利用以创建变量构建数据框 attach...当然table()函数也可以生成高维数据表(3个及以上变量),不过这时候使用ftable()函数可能会得到更好展示效果: # 创建3维频数表 mytable <- table(A, B, C) table...# 使用ftable()函数简洁输出3维表格 summary(mytable) # 独立性检验(列联表的卡方检验) 加入一个变量出现在了公式左侧,那么它就是一个计算好频数向量 # 例如 DF <-

2.6K30

组间差异分析:Metastats

这时候我们能想到简单办法就是对所有物种按照分组进行显著性检验,这时候我们对于一个数据集进行了多重检验,则需要p值校正来获得准确结果。...不同区组寻找差异物种常用两个工具是Metastats和LEfSe。...当我们明白了他们原理,实际上可以不用拘泥于两个工具本身,可以自己R中选择合适方法来进行分析。 p值校正 假设检验是一种概率判断,因为小概率事件发生了所以我们拒绝假设。...若要使所有检验结果正确概率大于0.95,则需要调整显著水平或常用p值校正,一个常见方法是Bonferroni校正,其原理为同一数据集做n个独立假设检验,那么每一个检验显著水平应该为只有一个检验时...例如我们只做两个变量相关检验,那么显著水平0.05,假如同时做一个数据集5个变量相关检验,因为要检验10次,那么显著水平应为0.005,因此做Bonferroni校正后判断为显著检验p值为原来p值10

1.1K10

Day4:R语言课程(向量和因子取子集)

但是,如果数据文本文件由不同分隔符分隔,我们可以使用泛型read.table函数并将分隔符指定为函数参数。 基因组数据通常有一个metadata文件,其中包含有关数据集中每个样本信息。...`summary()`:详细显示,包括描述性统计,频率 `head()`:将打印变量开始条目 `tail()`:将打印变量结束条目 向量和因子变量: `length()`:返回向量或因子元素数...编程语言如Fortran,MATLAB和R从1开始计数,符合人类思维模式。C系列语言(包括C ++,Java,Perl和Python)从0开始计算,因为这对计算机来说简单。...---- 因子relevel 我们已经简要地讨论了一些因子,但只有实战之后,这种数据类型才会变得更加直观。稍微绕道而行,了解如何在一个因素重新定义类别。...这体现在它们str()输出方式以及各个类别的编号因子位置。 注意:当您需要将因子特定类别作为“基础”类别(即等于1类别)时,需要重新调整。

5.6K21

数据分析必备:掌握这个R语言基础包1%功能,你就很牛了

data.frame代表数据集R呈现格式,这里指的是数据框格式,读者可以将其设想为常见Excel格式。...下面的代码及运行结果演示非常简单,使用read.table读取上一节一个数据集,实现思路是每次只增加一个read.table函数参数。...不过实际生活,原始数据难免会存在空白行、空白值、默认值,或者某一行数据存在多余观测值却没有与之对应变量名称,抑或元数据和原始数据一个文件中等各种问题。...不过在某些特殊情况下,例如,一个数据文件同时存在两个或两个以上数据集,那么保留空白行可能会有助于后续数据处理。 表1-5演示就是一个比较特殊例子。...理论上来讲,默认值仍是数据观测值一种,虽然原始数据其可能与空白一样没有显示,但是它可以通过其他手段来进行补齐。

2.7K50

【R极客理想系列文章】RHadoop培训 之 R基础课

R语法 R是一种语法非常简单表达式语言(expression language),大小写敏感。...因子(factor)为处理分类数据提供一种有效方法。 列表(list)是一种泛化(general form)向量。它没有要求所有元素是同一类型,许多时候它本身就是向量和列表类型。...函数(function)是可以保存在项目工作空间R 对象。该对象为R 提供了一个简单而又便利功能扩充方法。见编写你自己函数 R会话过程,对象是通过名字创建和保存。...可以根据索引数组去给数组不规则元素集合赋值或者将数组特定元素返回到一个向量 array() 除了用设定一个向量dim 属性方法来构建数组,它还可直接通过函数array将向量转换得到....创建数据框 可以通过函数data.frame 创建符合上面对列(分量)限制数据框对象: accountants <- data.frame(home=statef, loot=incomes) 符合数据框限制列表可被函数

2.8K20

SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

使用哪种居中方法选择应由所询问具体研究问题决定。另一个考虑因素是这些程序使用估计方法来产生参数估计,即最大似然(ML)或受限最大似然(REML)。每种都有自己优点和缺点。...但是,我们将其视为随机效应(均值为零正态分布变量),而不是像方差分析那样固定因子效应。因此,我们将估计值解释为每个类别的平均数总体平均人气得分附近方差。...以下各节,我们将看到前三个示例: 1.%WITHIN%– 1级固定因子(非随机斜率)2.具有潜在斜率变量%WITHIN%– 1级随机因子3....具有相互作用一个2级因子和两个随机1级因子  这是我们班级变量Texp与学生级变量Sex和Extrav之间进行跨级交互唯一模型。...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。

1.7K20

使用SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM

使用哪种居中方法选择应由所询问具体研究问题决定。另一个考虑因素是这些程序使用估计方法来产生参数估计,即最大似然(ML)或受限最大似然(REML)。每种都有自己优点和缺点。...以下各节,我们将看到前三个示例: 1.%WITHIN%– 1级固定因子(非随机斜率)2.具有潜在斜率变量%WITHIN%– 1级随机因子3....一个2级因子和两个随机1级因子(无交互)  这是我们看到一个具有2级(班级)变量模型:教师多年经验(Texp),也是以均值为中心。...具有相互作用一个2级因子和两个随机1级因子  这是我们班级变量Texp与学生级变量Sex和Extrav之间进行跨级交互唯一模型。...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。

2.8K20

R语言基础教程——第3章:数据结构——数据框

每一列数据模式必须唯一,不过你却可以将多个模式不同列放到一起组成数据框。由于数据框与分析人员通常设想数据集形态较为接近,我们讨论数据框时将交替使用术语列和变量。...check.rows如果为真,则检查行长度和名称一致性。check.names 如果为真,则检查数据框变量名称,以确保它们是语法上有效变量名称,并且不重复。...fix.empty.names:逻辑指示“未命名”参数(未被正式调用为someName = arg意义上)是否得到自动构造名称,或者确切地说是名称“”。...需要设置为FALSE,即使检查时也是如此。stringsAsFactors字符向量应该转换为因子吗?...1 数据框创建 使用data.frame函数就可以初始化一个数据框。

72820

SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

使用哪种居中方法选择应由所询问具体研究问题决定。另一个考虑因素是这些程序使用估计方法来产生参数估计,即最大似然(ML)或受限最大似然(REML)。每种都有自己优点和缺点。...但是,我们将其视为随机效应(均值为零正态分布变量),而不是像方差分析那样固定因子效应。因此,我们将估计值解释为每个类别的平均数总体平均人气得分附近方差。...以下各节,我们将看到前三个示例: 1.%WITHIN%– 1级固定因子(非随机斜率)2.具有潜在斜率变量%WITHIN%– 1级随机因子3....具有相互作用一个2级因子和两个随机1级因子  这是我们班级变量Texp与学生级变量Sex和Extrav之间进行跨级交互唯一模型。...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。

1.4K10

SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据

使用哪种居中方法选择应由所询问具体研究问题决定。另一个考虑因素是这些程序使用估计方法来产生参数估计,即最大似然(ML)或受限最大似然(REML)。每种都有自己优点和缺点。...但是,我们将其视为随机效应(均值为零正态分布变量),而不是像方差分析那样固定因子效应。因此,我们将估计值解释为每个类别的平均数总体平均人气得分附近方差。...以下各节,我们将看到前三个示例: 1.%WITHIN%– 1级固定因子(非随机斜率)2.具有潜在斜率变量%WITHIN%– 1级随机因子3....具有相互作用一个2级因子和两个随机1级因子 这是我们班级变量Texp与学生级变量Sex和Extrav之间进行跨级交互唯一模型。...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。

2.4K10

R语言 线性混合效应模型实战案例

通过学校我们看到学生紧密分组,但学校I和学校VI分散程度远远高于其他学校。我们预测因子相同模式在学校之间就像在课堂之间一样。...在这里我们可以看到,学校和阶级似乎密切区分我们预测者和外向性之间关系。 探索merMod对象内部 在上一个教程,我们为嵌套数据拟合了一系列随机拦截模型。...此外,创建者lme4已经为用户提供了一些简单快捷方式,以便从ranef.mer对象获得他们真正感兴趣内容。...使用模拟和图来探索随机效应 一种常见计量经济学方法是创建所谓集团级术语经验贝叶斯估计。不幸是,关于什么构成随机效应项适当标准误差甚至如何一致地定义经验贝叶斯估计,没有太多一致意见。...根据您数据收集方式和研究问题,可以采用其他方法来估算这些影响大小。但是,请谨慎行事。 作者推荐一种方法lme4涉及RLRsim包。

1.7K00

R语言函数含义与用法,实现过程解读

因子(factors) 提供了一种处理分类数据简介方式。 列表(list):  是向量一种一般形式,并不需要保证其中元素都是相同类型,而且其中元素经常是向量和列表本身。...四  有序因子和无序因子 因子一种向量对象,它给自己组件指定了一个离散分类(分组),它组件由其他等长向量组成。R提供了有序因子和无序因子。...外部文件:创建数据帧最简单方法应当是使用read.table()函数从外部文件读取整个数据帧。...这样我们可以很简单一个目录下处理多个问题,而且对每个问题都可以使用x,y,z这样变量名。 七  从文件读取数据 7.1 函数read.table() 该函数可以直接将文件完整数据帧读入。...R,自由变量值由函数被创建环境与其同名一个变量值决定(我理解为最近同名变量),这种方式被称为词汇式范畴(lexical scope)。 而在S,该值由同名全局变量决定。

5.6K30

Fine-Gray检验、竞争风险模型、列线图绘制

竞争风险模型(Competing Risk Model) : 指的是观察队列,存在某种已知事件可能会影响另一种事件发生概率或者是完全阻碍其发生,则可认为前者与后者存在竞争风险。...Status: 结局变量,0=删失,1=复发,2=竞争风险事件。 Source: 因子变量,2个水平:BM+PB(骨髓移植+血液移植),PB(血液移植)。 ftime: 生存时间。...简单来讲,这个图可以用一句话来概括:控制了竞争风险事件后,ALL和AML累计复发风险无统计学差异P=0.09067592。...首先要把自变量单独放在一个数据框里,使用中发现一个问题,这里如果把分类变量变为因子型不会自动进行哑变量编码,所以需要手动进行哑变量编码! 但是我这里偷懒了,并没有进行哑变量设置!实际是需要哦!!...因此我们需要对原数据集加权创建一个新数据集用于为竞争风险模型分析,使用mstate包crprep()创建加权数据集,然后使用coxph()对加权数据集进行竞争风险模型拟合,这样就可以画列线图了。

1K30

R语言函数含义与用法,实现过程解读

因子(factors) 提供了一种处理分类数据简介方式。 列表(list):  是向量一种一般形式,并不需要保证其中元素都是相同类型,而且其中元素经常是向量和列表本身。...四  有序因子和无序因子 因子一种向量对象,它给自己组件指定了一个离散分类(分组),它组件由其他等长向量组成。R提供了有序因子和无序因子。...外部文件:创建数据帧最简单方法应当是使用read.table()函数从外部文件读取整个数据帧。...这样我们可以很简单一个目录下处理多个问题,而且对每个问题都可以使用x,y,z这样变量名。 七  从文件读取数据 7.1 函数read.table() 该函数可以直接将文件完整数据帧读入。...R,自由变量值由函数被创建环境与其同名一个变量值决定(我理解为最近同名变量),这种方式被称为词汇式范畴(lexical scope)。 而在S,该值由同名全局变量决定。

4.6K120
领券