阅读框Open Reading Frame,ORF
ORF指的是DNA上的序列,从5'端翻译起始密码子ATG到终止密码子(TAA,TAG,TGA)的蛋白质编码序列。 对于任意给定的一段DNA,有两个问题需要考虑,
关于真核和原核的ORF 原核生物基因绝大多数是连续基因,不含内含子。而真核生物基因结构一般为断裂基因,编码区被内含子隔开,又有不同的拼接方式,所以真核生物的ORF长度变化范围比较大,预测就有比原核有难度。但是,真核的ORF中,外显子和内含子之间的连接有GU-AG规律。也就是内含子序列5'端起始的两个核苷酸总是GU,3'端最后两个核苷酸总是AG,即5'-GU......AG3,这可协助识别ORF
ORF预测的工具很多,一般基于以下两种算法,
image.png
image.png
默认1 standard,根据需要选择
image.png
还可以BLAST进行比对。genscan
image.png