基因组序列主要构成成分是基因序列,重复序列和基因间序列。
基因组注释包括基因组结构注释和基因组功能注释
结构注释的核心是基因识别,为了提高基因识别效率需要首先寻找并标记去除
重复的和低复杂性的序列。
重复序列(repetitive sequence)是在基因组中不同位置出现的相同或对称性序列片段,一般不编码多肽。组织形式有两种:串联重复序列和分散重复序列。前者成蔟存在于染色体的特定区域,后者分散于染色体各位点。
一般在顺式调控元件如启动子,增强子,终止子等出大量发行,真核生物中广泛分布。
大致分三类:
GC含量低,AT含量高,3'和5'端有直接重复序列存在,有利形成环形结构。
RepeatMasker Web Server
image.png