生命信息蕴藏在基因序列中,基因序列通过转录和翻译合成特定氨基酸序列的蛋白质进而控制生物的性状,生物序列信息的有效利用对于生物医药领域的发展至关重要。在专利中,涉及序列相关的主题范围十分广泛,包括引物、抗体、活性肽、载体、药物等;另外,近些年来与生物序列相关的专利申请也正在逐年增多,例如对标题中包含“引物组”的专利进行检索,从图1中可以看出申请量总体呈现逐年上升趋势,并且截止2018年11月“引物组”相关专利的申请量已达到5368件。序列的检索和比对,对于生物医药领域的科研工作者及专利相关从业者来说必不可少。
序列检索的形式
1.DNA或RNA的核苷酸序列
DNA或RNA是A、T、C、G或A、U、C、G按照不同顺序排列形成的长度不一的一段序列,检索的完整形式如“accctttttg tgcgggcctc ttcgctatta ccgattaagt tgtttcgcca gggttttccc agtcacgacg ttgtaagctt gcatgcctgc aggtcgactc tagaggatcc”。
2.蛋白质或多肽的氨基酸序列
蛋白质或多肽是由约20种常见的氨基酸(见下表),按照不同顺序排列形成的长度不一的一段序列,由于氨基酸有三字母和单字母的缩写形式,因此氨基酸序列检索的完整形式相应也有两种:“Phe Tyr Met Pro Lys Lys Ala Thr Glu Leu Lys His Leu Gln Cys”和“FYMPKKATELKHLQC”。
(20种氨基酸的三字母和单字母符号)
对于三字母和单字母之间的转换可以使用纽普生物(novopro)-在线工具 (http://www.novopro.cn/tools/)中的“三字母氨基酸转换成单字母缩写”和“单字母简写转换成三字母氨基酸”。
(氨基酸单字母和三字母之间的转换)
3.序列截短形式
无论是核苷酸还是氨基酸序列除了完整形式的检索外,还可以使用截短的形式进行检索。由于在序列中某些位置的核苷酸或者氨基酸具有不唯一性或者不确定性因而被略去,或者其中有一些重复序列因而被简写,因此截短形式的检索也是必不可少的。以“FYMPKKATELKHLQC”这段氨基酸序列为例,其截短形式包括,左截短:FYMPKKATELKHLQ,FYMPKKATELKHL,FYMPKKATELKH等;右截短:YMPKKATELKHLQC,MPKKATELKHLQC,PKKATELKHLQC等;两边截短:YMPKKATELKHLQ,MPKKATELKHL,MPKKATELKH等;另外还有一些重复序列,可以使用重复单元或者短基序形式检索。
4.利用分类号加关键词检索
IPC或者CPC分类号都有与肽或者核苷酸相关的分类号,因此可以选用相应的分类号进行检索;其次还可以加一些关键词进行限定,例如Oligopeptide,peptide,寡肽,短肽。
(多肽相关IPC分类号)
(核苷酸相关IPC分类号)
数据库检索
1.生物信息中心数据库检索。
美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)、日本DNA数据库(DNA Data Bank of Japan ,DDBJ)以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库(European Molecular Biology Laboratory, EMBL)是世界上的三大生物信息中心数据库,都可以进行生物序列的检索和比对,且是对公众开放的免费数据库。生物信息中心数据库是基于BLAST和FASTA程序进行序列的查找和比对,通常运行时间会比较长。
(1)NCBI数据库(https://blast.ncbi.nlm.nih.gov/Blast.cgi)
包含Blastp(在蛋白质序列数据库搜索蛋白质序列)、Blastn(在核酸序列数据库搜索核酸序列)、Blastx(在蛋白质序列数据库搜索翻译的核酸序列)、Tblastn(在翻译的核酸数据库搜索蛋白质序列)、Tblastx(在翻译的核酸数据库搜索翻译的蛋白质序列)五种模式,选择相应模式进入检索界面。
检索界面如图,输入序列,选择相应数据库(包括专利数据库和非专利数据库),点击BLAST进行检索;检索结果,按照匹配程度排序呈现前100条结果,点击结果则会出现具体的序列信息,专利数据库检索结果包括专利号、涉及的序列号和一致性,以及序列信息。
(NCBI序列检索界面)
(NCBI序列检索结果浏览界面)
(2)EMBL-EBI数据库(https://www.ebi.ac.uk/Tools/sss/)
含有基于BLAST和FASTA两种程序的序列相似性比对,每中程序之下对应多种比对模式,选择相应模式进入检索界面。
检索界面与NCBI类似,输入序列,选择相应数据库(包括专利数据库和非专利数据库),点击Submit提交检索;专利检索结果包括专利号、涉及的序列号、多肽长度和一致性,以及序列信息。
与NCBI类似,有Blastp、Blastn、Blastx、Tblastn和Tblastx等多种模式,选择相应模式进入检索界面。
输入序列,选择相应数据库(包括专利数据库和非专利数据库),点击Send to blast提进行检索;专利检索结果包括专利号、序列号、多肽长度,以及序列信息。
2.专利数据库检索
常用的专利数据库包括Incopat(https://www.incopat.com/)、Patentics(https://www.patentics.com/)、Orbit( https://www.orbit.com/)以及Patbase(http://www.patbase.com/login.asp)等。
Incopat、Patentics、Orbit此类商用数据库并没有专门生物序列检索入口,因此可以在主检索页面输入序列信息,并在专利全文中尝试检索(一般短序列检索比较有效),但由于该类数据库未全部收录专利附录中的序列信息,因此检索结果可能并不全面。
另有一些商用数据库具有专门的生物序列检索入口,例如Patbase,生物序列检索界面Patbase数据库收录了专利附录中的序列信息,数据全面,运行速度较快;如图,对于氨基酸的检索需要输入三字母间隔形式的序列;另外浏览结果页面信息全面、简洁,包括全部的专利族文件(都有PDF文件可下载),可以通过高亮显示位置。
(Patbase数据库检索页面)
3.其他
可以在Google patent、Google scholar或者百度文库中输入序列信息,尝试检索,此方法适合于短序列(如短肽)的检索。
如需咨询生物技术相关业务
作者简介
更多阅读
领取专属 10元无门槛券
私享最新 技术干货