专栏首页小明的数据分析笔记本动植物基因组大小粗略比较

动植物基因组大小粗略比较

在知乎看到问题 为什么植物基因组比动物基因组大(为什么植物基因组似乎比脊椎动物拥有更多的基因?)? 印象里好像也不一定,因为拟南芥的基因组也才100多M,自己之前也看到过有些鱼的基因组也可以达到1G的级别。所以到NCBI网站上查了一下,找到了459个陆生植物(land Plants)植物的基因组信息,264个鱼(Fishes)418个昆虫(insects),377个哺乳动物(Mammals)的基因组信息。

我们分别看一下基因组大小的分布范围
library(ggplot2)
library(ggthemes)

landPlant<-read.csv("Genome_Size/landPlantsgenomes.csv",header=T)
landPlant$group<-"LandPlant"

fishes<-read.csv("Genome_Size/fishesgenomes.csv",header=T)
fishes$group<-"Fishes"

insects<-read.csv("Genome_Size/insectsgenomes.csv",header=T)
insects$group<-"Insects"

mammals<-read.csv("Genome_Size/mammalgenomes.csv",header=T)
mammals$group<-"Mammals"

df<-rbind(landPlant,fishes,insects,mammals)

dim(df)
colnames(df)
ggplot(df,aes(x=Size.Mb.))+
  geom_density(aes(fill=group))+
  facet_grid(group~.)+
  theme_gdocs()+
  theme(axis.text.y=element_blank())+
  scale_fill_manual("Species",
                    values=c("#FFCC33","#FF3300",
                             "#990000","#0066FF"))+
  labs(x="Genome Size (MB)")

image.png 总体来看还是哺乳动物的基因组更大,上图看起来不太美观,我们去掉一些极端值

ggplot(df,aes(x=Size.Mb.))+
  geom_density(aes(fill=group))+
  facet_grid(group~.)+
  theme_gdocs()+
  theme(axis.text.y=element_blank())+
  scale_fill_manual("Species",
                    values=c("#FFCC33","#FF3300",
                             "#990000","#0066FF"))+
  xlim(0,5000)+labs(x="Genome Size (MB)",y="")

image.png

接下来在分别看看最大和最小
library(dplyr)
df1<-df%>%
  group_by(group)%>%
  summarise(value=max(Size.Mb.))
ggplot(df1,aes(x=group,y=value))+
  geom_col(aes(fill=group))+
  labs(x="Species",y="Genome Size (MB)")+
  theme_bw()
df2<-df%>%
  group_by(group)%>%
  summarise(value=min(Size.Mb.))
ggplot(df2,aes(x=group,y=value))+
  geom_col(aes(fill=group))+
  labs(x="Species",y="Genome Size (MB)")+
  theme_bw()
df2

最大

image.png 最大的是

df[which(df$Size.Mb. > 27600),]

Pinus lambertiana

最小

image.png 最小基因组出现了0,应该是数据出现了问题,有时间再来检查吧

本文分享自微信公众号 - 小明的数据分析笔记本(gh_0c8895f349d3),作者:Punicagranatum

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R语言可视化展示gff3格式基因组注释文件简单小例子

    https://girke.bioinformatics.ucr.edu/GEN242/mydoc_Rgraphics_7.html

    用户7010445
  • Magic-BLAST简单介绍

    -in 参考序列 -dbtype 数据类型:核苷酸和蛋白质可选 -parse_seqids 暂时还没搞懂这个参数的意思 -out 数据库的名称

    用户7010445
  • 使用Django框架开发的第一个简易web程序:计算fasta序列长度和GC含量

    本次使用的基础配置 python版本:3.6.3 Django:2.2 Windows10系统 如何查看Django版本

    用户7010445
  • hihoCoder 1317 搜索四·跳舞链(DLX算法)

    题目链接:http://hihocoder.com/problemset/problem/1317

    Ch_Zaqdt
  • 【2020HBU天梯赛训练】7-3 阅览室

    天梯图书阅览室请你编写一个简单的图书借阅统计程序。当读者借书时,管理员输入书号并按下S键,程序开始计时;当读者还书时,管理员输入书号并按下E键,程序结束计时。书...

    韩旭051
  • PAT--L2-020. 功夫传人

    题目链接:https://www.patest.cn/contests/gplt/L2-020

    指点
  • PS 太难学?腾讯这个小程序 3 秒就能生成一张海报 | 亲儿子

    知晓君
  • Python之Scrapy海报资源海量下载

    今天小编给大家带来的是使用 Python 的 scrapy 框架快速写一个“千图网”的海报原图下载的爬虫,可以给设计专业的相关的人下载图片参考设计海报,也可在活...

    用户6825444
  • Firefox内存释放重用漏洞高级利用(Pwn2Own2014、CVE-2014-1512)

    大家好,Pwn2Own 2014是令人兴奋的并且今年我们要挑战的所有主流浏览器和操作系统比以往任何时候更安全。然而,安全并不是意味着牢不可破,它意味着需要付出更...

    FB客服
  • 第25天:js-封装函数-淘宝鼠标展示

    半指温柔乐

扫码关注云+社区

领取腾讯云代金券