前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言实现生物序列的降维比对

R语言实现生物序列的降维比对

作者头像
一粒沙
发布2020-09-24 15:14:55
6600
发布2020-09-24 15:14:55
举报
文章被收录于专栏:R语言交流中心R语言交流中心

系统发育树分析大家应该很熟悉,很多软件都可以实现可视化的操作。今天给大家介绍一个通过“SpacedWords Projection” 方法实现的氨基酸序列系统发育树构建,该方法主要是基于无对齐技术实现,能够在保持序列间可比性的前提下,用相对较小的向量表示生物序列。再详细的算法那就需要各位直接看此包的原文了,我们不在此展开。首先,我们看下包的安装:

代码语言:javascript
复制
BiocManager::install("Biostrings")
BiocManager::install("rSWeeP")

在此包中只有两个功能:

1. orthBase主要是用来生成正交矩阵的函数,此矩阵就是后面SWeeP算法的投影矩阵。我们直接看下实例:

代码语言:javascript
复制
##生成16000行10列矩阵
library(rSWeeP)
baseMatrix <- orthBase(160000,10)

2. sWeeP 比对氨基酸序列的核心算法。主要参数就是序列文件和正交矩阵。我们直接看下实例:

代码语言:javascript
复制
##数据包含200个氨基酸序列
path <- system.file(package ="rSWeeP", "extdata", "exdna.fas")
return <- sWeeP(path,baseMatrix)
distancia <- dist(return, method ="euclidean")
tree <- hclust(distancia,method="ward.D")
plot(tree, hang = -1, cex = 1)

如果想生成漂亮的树状图还需要用树状图的可视化包进行美化。当然,在这个包中有一个限制,他的坐标索引设置是160000,是一个常量不可以改变。但是矩阵列数是可以变化的,但是原则上是远小于160000。

欢迎大家学习交流!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 R语言交流中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档