假设你记录了许多染色体区间(比如你有一个bed文件),你想知道每个区间对应的碱基序列是什么。如果你手头上有全基因组的序列并且你会编程的话,那么你写一个脚本就可以很快地完成任务。要是你没有全基因组序列或者不会编程呢?
今天介绍一个利用UCSC Table Browser来批量获取碱基序列的方法。
首先进入UCSC Table Browser的界面,网址是
https://genome.ucsc.edu/cgi-bin/hgTables
选择“manage custom tracks”
点击“add custom tracks”
按照“chr<x> <begin_position> <end_position>”的格式将需要查询的coordinate位置输入进去,点击“submit”。注意,这种方法中,begin_position是从0开始计数的,也就是说,如果begin_position输入的值是12023593,那么它实际上代表染色体上12023594的位置。
可以看到“custom tracks”添加成功,这个时候选择“Table Browser”,点击“go”。
output format选择“sequence”,点击“getoutput”。
点击“get sequence”。
结果就出来了。注意,和最初的输入相比,结果是倒序的。
本次分享到这就结束了。通过它,我们可以知道一些网络工具还是很有用的,如果你有兴趣可以深入了解UCSC Genome Browser。当然,以后我们还会继续分享其他的实用工具集。