前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信技能树数据挖掘笔记

生信技能树数据挖掘笔记

原创
作者头像
用户10020512
发布2023-02-08 17:08:51
7920
发布2023-02-08 17:08:51
举报
文章被收录于专栏:叶潭生信笔记叶潭生信笔记

————————图片转载自小洁忘了怎么分身

R/Rstudio

数据类型与向量

tab键、上下键、ctr+L(back)

逻辑型数据

转换和判断

数据的结构

脚本直接双击打开,数据要load加载

向量的生成

数据类型的转换优先顺序

对单个向量进行操作

赋值是实际改变文件的方法

sort()默认从小到大,可以添加decreasing=T,改为由大到小

duplicated()判断是否重复

R语言默认思想;

R语言函数思想,能用函数替代的,不要手动去数

对两个向量的操作

发生循环补齐

% in %

向量取子集

x <- 8:12

[]中括号的作用可以把T挑选处理,丢弃F

[]中括号里面的可以是逻辑值判断,可以是具体的值(即下标),可以是函数,可以是向量

如何修改向量中的某个或者某些元素

简单的向量作图

数据框、矩阵和列表

向量是一维的

矩阵是二维的

lis列表t可装万物

数据框的来源

新建数据框

从文件中读取(放在工作目录下)

数据框的属性

dim()多少行、多少列,nrow()多少行,ncol()多少列,rownames()行名

数据框取子集

中括号里面的逗号,表示维度的分割
中括号里面的逗号,表示维度的分割

数据框的修改

原有的元素,修改,原无的元素,增加
原有的元素,修改,原无的元素,增加

矩阵新建和取子集(不支持$)

矩阵的的转置、转换

矩阵画热图

列表的的新建和取子集

l[[2]]:取第二个子集,再取矩阵的子集

列表支持$

元素的名字——names()
元素的名字——names()

数据结构的总结

函数和R包

用函数替代粘贴复制
用函数替代粘贴复制

R包

1.CRAN网站

2.bioconductor

3.github

安装需要加引号,library不需要

包是不断在更新的
包是不断在更新的
依赖包版本不够新
依赖包版本不够新
网络
网络

文件的读取

win10不显示后缀的解决办法
win10不显示后缀的解决办法

CSV打开方式:默认excel;记事本;sublime(适用于大文件);R语言读取

常见分隔符:逗号;空格;制表符(\t)

直接读取如果失败,就需要给指定一些参数
直接读取如果失败,就需要给指定一些参数
Rdata是R特有的数据保存格式
Rdata是R特有的数据保存格式
实战项目组织方式1
实战项目组织方式1
实战组织方式2
实战组织方式2
表格取子集(列、行)
表格取子集(列、行)
读取表头
读取表头
数据框不允许重复行名
数据框不允许重复行名

R语言作图

ggplot2语法
ggplot2语法
作图数据和坐标
作图数据和坐标

映射,根据数据框某一列的属性来定义图的某个属性

以Species进行单分面
以Species进行单分面
双分面
双分面

letters小写字母,LETTERS大写字母,默认relplace=F

写在前面的为下图层
写在前面的为下图层

统计变换

完整绘图模板
完整绘图模板
ggplot2语法
ggplot2语法

ggpubr

图片的保存
图片的保存

R语言的综合应用

1.玩转字符串

stringr
stringr
列表
列表
列表取子集
列表取子集

由于有多个字符串和多个拆分站点,参数simplify=T给我们提供了一个矩阵(每行是x中的一个字符串,拆分后的每列是一个片段),它可以转换为data.frame

按位置提取字符
按位置提取字符
字符检测
字符检测
字符替换
字符替换
字符删除
字符删除

玩转数据框

数据框排序
数据框排序
去重复
去重复

keep_all=T时,考察完输入列的独立性后,其他列保留输出

新增数据列
新增数据列
select(),filter()筛选列、行
select(),filter()筛选列、行
管道符号
管道符号

条件语句和循环语句

ifelse
ifelse
ifelse+str_detect
ifelse+str_detect
多个条件
多个条件
for循环
for循环
下标循环利于保存结果
下标循环利于保存结果

表达矩阵画箱线图

转置t
转置t
原有行名改为第一列
原有行名改为第一列
宽变长
宽变长
长变宽
长变宽

round()指定小数点后几位

分面
分面

隐式循环

# 如何挑出100个数字中最大的10个?

sort(a)

tail(a,3)

tail(sort(a),10)

head(sort(a,decreasing = T),10)

load("test2.Rdata")

a = apply(test,1,var)

names(tail(a,1000))

a = names(tail(apply(test,1,var),1000))

pheatmap::pheatmap(test[a,],show_rownames = F,scale = "row")

两个数据框的连接

inner_join()交集
inner_join()交集
left_join()左连接
left_join()左连接
right_join()右连接
right_join()右连接
full_join()全连接
full_join()全连接

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • R/Rstudio
  • 数据类型与向量
    • 逻辑型数据
      • 转换和判断
    • 数据的结构
      • 向量的生成
        • 对单个向量进行操作
        • 对两个向量的操作
        • 向量取子集
        • 数据框的来源
        • 新建数据框
        • 从文件中读取(放在工作目录下)
        • 数据框的属性
        • 数据框取子集
        • 数据框的修改
        • 矩阵新建和取子集(不支持$)
        • 列表的的新建和取子集
        • 数据结构的总结
      • 函数和R包
        • R包
          • 文件的读取
            • R语言作图
              • 统计变换
                • ggpubr
                  • 玩转数据框
                    • 条件语句和循环语句
                      • 表达矩阵画箱线图
                        • 隐式循环
                          • 两个数据框的连接
                          领券
                          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档