评价真菌引物覆盖度(4)R跑本地blast

本地blast本质上就两步。以核酸序列比对核酸数据库为例:

1.建立数据库

2.进行比对

一般用7这种格式进行后续分析,如覆盖度的计算。

而在R中运行windows下的可执行文件(.exe)的命令是system()。其余跟本地blast完全一样。

这里有点需要注意,命令必须写在一行里。为了看起来清楚而分行就会因blastn不识别而报错。

如果有人问既然可以本地blast,为啥还要在R里面跑,其实我也觉得意义不大。因为输出的文件也不能直接读进R,还是需要整理为标准的数据框格式。

最开始也是突发奇想在R中试一下,毕竟多知道了一种途径。

另外一个收获是在R中跑会出现一些warming信息,显示一些数据库中有特殊字符的行被去掉了,比如我的数据库里有几行有乘号(×)。而这些信息在NCBI上跑blast或者windows上跑本地blast是没有的。这样可以修改不合格的序列,数据库序列就不会丢失。

下次介绍得到blastn结果后如何计算覆盖度及其R代码。

系列历史

一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181205G0YRHD00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券