前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >阿榜的生信笔记5

阿榜的生信笔记5

原创
作者头像
用户10480134
修改2023-05-04 23:38:09
3300
修改2023-05-04 23:38:09
举报
文章被收录于专栏:黄金榜黄金榜

哈喽,我是学习生物信息学的阿榜!非常感谢您能够点击进来查看我的笔记。我致力于通过笔记,将生物信息学知识分享给更多的人。如果有任何纰漏或谬误,欢迎指正。让我们一起加油,一起学习进步鸭?

这份学习目录可以让大家更容易地了解笔记里面的内容哦?:

一、认识csv格式

①、csv格式的定义:

CSV是用逗号分隔值文件格式,用于存储数据的一种简单的文本文件格式,每行都是一条记录,每个字段用逗号隔开。CSV是电子表格和数据库的常用数据交换格式,易于程序读取和处理,可通过各种软件进行创建和编辑。

②、csv的四种打开方式:

R语言读取文件获得数据框是我们前一篇阿榜的生信笔记中讲过哦,大家应该还记得吧?

有没有人和阿榜第一次学习到这个知识点一样,会觉得在R语言上修改了数据会对原文件产生修改?实际上是不会的哦,大家大可放心?

二、认识分隔符

常见的分隔符有三种:逗号、空格、制表符,如下图所示:

3、将表格文件读入R语言,成为数据框

4、将数据框导出,成为表格文件

大家注意其格式

5、R语言特有的保存格式——Rdata

注意:Rdata由save()保存,由load()加载

大家看看下面的图片,做一下练习,认识认识文件后缀名吧?

读取文件不是一帆风顺的,它有时候也会报错。为什么会报错呢?

原因是我们没有规范的进行操作,上面两种情况记住哦?

还有一种情况是我们没有做错什么还是报错了,这提醒我们改参数哦?

三、让我们来实战一下吧

大家观察下面图标黄的部分,发现了行列名重复了,那该怎么办?

大家还记得前一篇阿榜的生信笔记里面说过我们学会了查字典了,所以现在让我们打开帮助文档吧?

所以,我们现在知道加表头就能解决问题了“header=T”

代码语言:text
复制
#文件读写部分
#1.读取ex1.txt
ex1 <- read.table("ex1.txt")
ex1 <- read.table("ex1.txt",header = T)

这个呢?这张图出现的问题怎么解决呢?

还是用参数,row.name=1:第一列是行名;check.names=F:不检查行名是否合法化,允许使用不规范的变量名,例如包含空格或特殊字符的变量名称。

代码语言:text
复制
#2.读取ex2.csv
ex2 <- read.csv("ex2.csv")
ex2 <- read.csv("ex2.csv",row.names = 1,check.names = F)

接下来是几个常见的问题及解决方法:

代码语言:text
复制
#注意:数据框不允许重复的行名
rod = read.csv("rod.csv",row.names = 1)
rod = read.csv("rod.csv")

下面这张图片的问题,阿榜碰到过。当时困惑了我半个多月,直到后面小洁老师讲解了这个知识点,我才解决了这个小小的问题。果然是大神的一句话,菜鸟少走半年的弯路。感谢小洁老师?

其实加个制表符就好了,简单吗?sep="\t"

我们继续往下看✍

代码语言:text
复制
#4.soft 的行数列数是多少?列名是什么
dim(soft)
colnames(soft)
代码语言:text
复制
#5.将soft导出为csv
write.csv(soft,file = "soft.csv")
代码语言:text
复制
#6.将soft保存为Rdata并加载。
save(soft,file = "soft.Rdata")
rm(list = ls())
load(file = "soft.Rdata")

提个小问题:文件本质是有什么决定?如图:

答案是A函数哦,我们是可以修改后缀的

下图是R语言读取的文件格式:

知识点记忆卡片来喽?

以上是我这次在学习生物信息学过程中所整理的笔记。希望大家能够一起学习,共同进步。如果在笔记中有错误或者不足之处,欢迎大家指正,我们一起加油鸭?

引用自生信技能树——小洁老师

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云原生分布式云中心
云原生分布式云中心(Tencent Kubernetes Engine Distributed Cloud Center, TDCC)是面向多云多集群场景的应用管理平台,支持将云原生化的应用扩展到分布式云,全局视角统一管理和运维分布式云资源,轻松地将您的业务发布至全球,一次部署处处运行。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档