前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通过简单数据熟悉Linux下生物信息学各种操作3

通过简单数据熟悉Linux下生物信息学各种操作3

作者头像
Y大宽
发布2019-07-02 17:52:53
5840
发布2019-07-02 17:52:53
举报
文章被收录于专栏:Y大宽

原地址

一共三部分

通过简单数据熟悉Linux下生物信息学各种操作1

通过简单数据熟悉Linux下生物信息学各种操作2

通过简单数据熟悉Linux下生物信息学各种操作3


15awk的简单使用

15.1提取Ebola的coding feature,genes和coding sequences

代码语言:javascript
复制
efetch -db nucleotide -id NC_002549.1 -format gb > NC.gb
 ~/bin/readseq -format=GFF -o NC.gff NC.gb

找到每个feature的长度

代码语言:javascript
复制
cat NC.gff |awk '{print $1,$2,$3}'|head -5
代码语言:javascript
复制
##gff-version 2 
# seqname source
NC_002549 - source
NC_002549 - 5'UTR
NC_002549 - gene
代码语言:javascript
复制
cat NC.gff|cut -f 1,2,3|head -5
代码语言:javascript
复制
##gff-version 2
# seqname   source  feature
NC_002549   -   source
NC_002549   -   5'UTR
NC_002549   -   gene

几乎等同于上个命令。

计算每个feature的长度

代码语言:javascript
复制
cat NC.gff | awk ' { print $3, $5-$4 + 1 } ' | head -5
代码语言:javascript
复制
 1
source 1
source 18959
5'UTR 55
gene 2971

仅提取CDS features

代码语言:javascript
复制
cat NC.gff|awk '$3=="CDS" {print $3,$5-$4+1,$9}'
代码语言:javascript
复制
CDS 2220 gene
CDS 1023 gene
CDS 981 gene
CDS 885 group
CDS 1146 group
CDS 1095 gene
CDS 884 group
CDS 10 group
CDS 867 gene
CDS 756 gene
CDS 6639 gene

计算所有gene的累积长度

代码语言:javascript
复制
cat NC.gff | awk '$3 =="gene" { len=$5-$4 + 1; size += len; print "Size:", size } '

size+=len代表size=size+len,也就是在第一个len的基础上依次递加。为了清楚表示,不用这个运算符,比对结果看

代码语言:javascript
复制
cat NC.gff | awk '$3 =="gene" { len=$5-$4 + 1; size += len; print "Size:", size } '
代码语言:javascript
复制
Size: 2971
Size: 4347
Size: 5852
Size: 8258
Size: 9711
Size: 11345
Size: 18127
代码语言:javascript
复制
cat NC.gff | awk '$3 =="gene" { print $3, $5-$4 + 1, $9 } '
代码语言:javascript
复制
gene 2971 gene
gene 1376 gene
gene 1505 gene
gene 2406 gene
gene 1453 gene
gene 1634 gene
gene 6782 gene
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019.07.01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 原地址
  • 15awk的简单使用
    • 15.1提取Ebola的coding feature,genes和coding sequences
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档