前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >day6-乙醇-学习R包

day6-乙醇-学习R包

原创
作者头像
用户10917298
发布2024-01-20 23:51:33
1560
发布2024-01-20 23:51:33

学生信为啥要学R语言:R语言拥有丰富的图表和Biocductor上面的各种生信分析R包。

如何安装和加载R包

1. 配置镜像:我猜这样下载R包会更快

options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) # CRAN的清华镜像源

options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") # Bioconductor的中科大镜像源

1. 安装R包

R包安装命令是install.packages(“R包名”)

或BiocManager::install(“R包名”)

取决于要安装的包存在于CRAN网站还是Biocductor

加载R包

用library(“R包名”)加载R包,记得先有安装了,才可以加载使用。

dplyr包的学习

五个基本函数

  • 首先构建一个储存数据的变量 test
  • mutate() 用于新增一列数据
  • select(),按列筛选
  • 按列号筛选
筛选第一列、筛选第一和第五列
筛选第一列、筛选第一和第五列
  1. 按列名筛选
    vars <- c("Petal.Length", "Petal.Width")
select(test, one_of(vars)) 对 test 数据框进行列选择操作,从中选取了包含在 vars 向量中的列,即 "Petal.Length" 和 "Petal.Width" 两列。其中 one_of() 函数用于匹配数据框中的列名,该函数可以接受一个或多个字符串向量作为参数,返回包含了与这些字符串向量匹配的列名的逻辑向量。实现了从 test 数据框中仅选取 "Petal.Length" 和 "Petal.Width" 两列作为新的数据框,并将结果赋值给一个新的数据框或覆盖原有的数据框。
    vars <- c("Petal.Length", "Petal.Width") select(test, one_of(vars)) 对 test 数据框进行列选择操作,从中选取了包含在 vars 向量中的列,即 "Petal.Length" 和 "Petal.Width" 两列。其中 one_of() 函数用于匹配数据框中的列名,该函数可以接受一个或多个字符串向量作为参数,返回包含了与这些字符串向量匹配的列名的逻辑向量。实现了从 test 数据框中仅选取 "Petal.Length" 和 "Petal.Width" 两列作为新的数据框,并将结果赋值给一个新的数据框或覆盖原有的数据框。
这里报错是因为我没有注意大小写,sepal应该为Sepal,说明这里严格区分大小写
这里报错是因为我没有注意大小写,sepal应该为Sepal,说明这里严格区分大小写
  • filter()筛选行
  • arrange(),按某1列或某几列对整个表格进行排序
  • arrange(),按某1列或某几列对整个表格进行排序
  • summarise():汇总
    计算Sepal.Length的平均值和标准差
    计算Sepal.Length的平均值和标准差
    先按照Species分组
    先按照Species分组
    计算分组的Sepal.Length的平均值和标准差
    计算分组的Sepal.Length的平均值和标准差

dplyr两个实用技能

管道操作 %>% (cmd/ctr + shift + M)

首先,通过 %>% 管道符将 test 数据框传递给 group_by() 函数,并按照 "Species" 列的不同取值将行进行分组。然后,再通过 %>% 管道符将分组后的数据框传递给 summarise() 函数,对每个分组计算 "Sepal.Length" 列的均值和标准差。结果是一个新的数据框(tibble),包含三列: "Species"(分组变量)、"mean(Sepal.Length)"("Sepal.Length" 列的均值)和 "sd(Sepal.Length)"("Sepal.Length" 列的标准差)。发现红色框框的结果有点子熟悉,因为与上面那段的代码本质上是相同的,只是使用了 %>% 管道符来简化代码。
首先,通过 %>% 管道符将 test 数据框传递给 group_by() 函数,并按照 "Species" 列的不同取值将行进行分组。然后,再通过 %>% 管道符将分组后的数据框传递给 summarise() 函数,对每个分组计算 "Sepal.Length" 列的均值和标准差。结果是一个新的数据框(tibble),包含三列: "Species"(分组变量)、"mean(Sepal.Length)"("Sepal.Length" 列的均值)和 "sd(Sepal.Length)"("Sepal.Length" 列的标准差)。发现红色框框的结果有点子熟悉,因为与上面那段的代码本质上是相同的,只是使用了 %>% 管道符来简化代码。

count统计某列的unique值

dplyr处理关系数据

这儿有2个表,test1和test2
这儿有2个表,test1和test2
  • 內连inner_join,取交集
    表示对于两个数据框中 "x" 列相同的行,将它们合并到一起。
    表示对于两个数据框中 "x" 列相同的行,将它们合并到一起。
  • 左连left_join
    表示对于两个数据框中 "x" 列相同的行,将它们合并到一起。左连接的结果包含左侧数据框(test1)中的所有行以及右侧数据框(test2)中与之匹配的行,如果在右侧数据框中没有与左侧数据框匹配的行,则该行会被填充为缺失值。
    表示对于两个数据框中 "x" 列相同的行,将它们合并到一起。左连接的结果包含左侧数据框(test1)中的所有行以及右侧数据框(test2)中与之匹配的行,如果在右侧数据框中没有与左侧数据框匹配的行,则该行会被填充为缺失值。
  • 全连full_join
  • 半连接:semi_join
    表示对于两个数据框中 "x" 列相同的行,只保留左侧数据框(test1)中的行,并且去除右侧数据框(test2)中没有与之匹配的行。
    表示对于两个数据框中 "x" 列相同的行,只保留左侧数据框(test1)中的行,并且去除右侧数据框(test2)中没有与之匹配的行。
  • 反连接:anti_join
    返回无法与y表匹配的x表的所记录
    返回无法与y表匹配的x表的所记录
  • 简单合并:相当于base包里的cbind()函数和rbind()函数;注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数。
    这儿有三个表格
    这儿有三个表格
    bind_rows()函数和bind_cols()函数
    bind_rows()函数和bind_cols()函数

最最后,这里表示还有一个额外变量,怎么才能显示出来呢?

自问自答:这里是因为控制台面积太小了,把它拉大,然后重新运行代码就可以了~

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 如何安装和加载R包
    • 1. 配置镜像:我猜这样下载R包会更快
      • 1. 安装R包
        • 加载R包
        • dplyr包的学习
          • 五个基本函数
            • dplyr两个实用技能
              • 管道操作 %>% (cmd/ctr + shift + M)
              • count统计某列的unique值
            • dplyr处理关系数据
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档