前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Day 7_测序知识- CG

Day 7_测序知识- CG

原创
作者头像
Crazy_George
修改2024-03-29 13:26:42
1220
修改2024-03-29 13:26:42
举报
文章被收录于专栏:一周生信入门一周生信入门

1. 测序原理和过程

参考文章链接1

参考文章链接1

参考文章链接1

测序:检测DNA或RNA上AT(U)GC顺序和数量。

1.1 第一代测序:

Sanger-双脱氧链终止法原理:设置4个反应体系,分别加入DNA、引物、酶、4种dNTP,和其中1种带有标记ddNTP。在加入ddATP反应体系中,当ddATP和T碱基结合,反应终止,在这个反应体系中,ddATP会结合DNA上所有T位点,其余3种反应体系同上。

1.2 第二代测序

目前二代测序应用最广泛的是illumina公司的边合成边测序。

二代测序:分为样品收集 > 文库建库 > 测序三个步骤。将待测DNA打断成200-800bp片段,经过末端补齐并加A、与特有的测序接头连接,经过扩增建立测序文库。

接头:

双端index接头

加接头方式:

  • 先在fragment DNA的两端加上PE adapter, 然后再引入和P5/P7 oligo互补配对的序列以及index序列(上图所示)
  • 直接在fragment DNA的两端直接加上full Y-adapter, adapter中已经包括了和P5/P7 oligo互补的序列, index, 以及Read1/Read2的测序引物。

接头包含:P5/P7 是和测序仪上配对的序列;index1/2是barcode,用于区分不同样本;PE adaptor是建库PCR富集时候需要用的引物序列,另一部分是测序时需要用的引物。

测序仪1个flow有8条lane,lane上随机分布两种接头,__p5‘(与P5互补),P7(与P7'互补)。 __

测序过程:

  • 序列只能一开始是利用p5接头互补,然后第一轮扩增(p5 > p7是模版链,需要的测序),形成互补链。
  • 洗脱:互补链('p7>'p5)由于'p5在lane上不会被洗脱,而模版链被洗脱。

-桥式形成:互补链'p7和lane上p7互补结合形成桥,可以快速扩增p7链(Forward strand,模版链)。

  • 35轮桥式扩增形成cluster(一群完全相同的序列,放大信号作用)。
  • 解链:甲酰胺基嘧啶糖苷酶(Fpg)选择性切掉'p5连接的链(互补链)
  • 双端测序之Forward Strand:illumina采取了“一次加一个荧光碱基,用完失效。先是primer结合到靠近p5的sequencing primer binding site1上,再加入特殊的dNTP【它的3‘ 羟基被叠氮基团替代,因此每次只能添加一个dNTP;还含有荧光基团,能激发不同颜色】;在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉; 再加入激发荧光缓冲液,用激光激发荧光信号,光学设备记录荧光信号的记录,计算机将光学信号转化为测序碱基。再加入化学试剂淬灭荧光信号并使dNTP 3’ 叠氮基团变成羟基,这样能继续向下进行再加一个,并且保证这个不再发出荧光。如此重复直至所有链的碱基序列被检测出。得到了Forward Strand序列。
  • Index测序: 上面的循环结束后,read product被冲掉,index1 primer和链上的index1 互补配对,进行index1的检测。测完后,洗脱产物,得到index1 的序列。接下来p5与lane上的p5‘配对,测得了index2,并洗脱。
  • 双端测序之Reverse Strand: 洗脱掉index2 产物后,还是一个桥式扩增,得到双链,再变性得到原始Forward strand 和 新的Reverse Strand, 除去测完的Forward strand。然后和测Forward一样,也是先连接primer,只是连接的位点是Primer Binding Site2,测完后得到reverse strand序列。

1.3 三代测序

在第二代测序的基础上,人们还希望提高测序效率、提高测序通量、提高测序准确率、避免PCR扩增和避免荧光检测等。

根据不同的发展方向,目前发展出多种不同的三代测序方法。

1.3.1 实时单分子测序(real-time single-molecule)

边合成边测序,四种分别荧光标记的dNTPs参与到DNA聚合酶主导的链合成反应中,每类碱基在被添加上去的时候,会显示不同的荧光。当把这个链合成反应控制在一个DNA母板链、一个DNA聚合酶,一个相对封闭的反应空间的时候,就可以方便地对每次加入的荧光进行判别。

1.3.2 complete genomics公司的复合探针-锚定连接技术(combinatorial probe-anchor ligation,cPAL):依靠荧光检测来测序,提高了测序速度和通量

1.3.3 Life technologies公司的离子流探测测序设备(Ion torrent)

使用离子流场效应半导体感应器(ion-sensitive field effect transistor),依靠边合成边测序的中心概念,检测每次添加碱基时候释放出的离子流,从而避免了传统第二代的荧光检测。

1.3.4 Oxford nanopore公司的纳米孔单分子测序技术,避免了荧光检测和对主体DNA序列的PCR扩增。

1.4 第一代、二代、三代测序比较

  • 一代测序最大的优势在准确性上,但是成本高、通量低。
  • 二代测序大幅度提高了测序速度,降低了测序成本,保持了高准确性。缺点是读长短,拼接困难,pcr技术增加了测序的错误率。在进行基因组组装或者结构变异分析的时候没有优势。
  • 三代测序,解决了二代测序中PCR复制引入的误差以及复制偏倚,并且因为三代读长长的优势,测序后不用拼接,直接读出整个基因的全长。这解决的二代没法解决的生物学问题:鉴定新的转录本。但其成本高,测序准确性差。

2. 常用数据格式

参考文章链接

数据格式详解链接

2.1 DNA序列表征

A、C、G、T、U、R(GA)、Y(TC)、K(GT酮)、M(AC氨基)、S(GC)、W(AT)、B(GTC)、D(GAT)、H(ACT)、V(GCA)、N(AGCT)

2.2 fastq和fasta

fastq格式:基于文本,保存生物序列和测序质量信息的格式。一般包含4行。

  • 第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的。
  • 第二行:碱基序列;
  • 第三行:由‘+’开始,后面是序列的描述信息;
  • 第二行序列的质量评价(quality value)

fasta格式:

  • 以“>”为开头,fasta格式标志。
  • 序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
  • 序列描述。
  • 碱基序列,序列中允许空格、换行、空行,一般一行60个。

2.3 GenBank格式

以LOCUS和一些注释行开始。

序列的开头以“ORIGIN”标记,末尾以“//”标记。

2.4 EMBL格式

以标识符行(ID)开头,后面跟着更多注释行。

序列的开头以“SQ”开头标记,序末尾以“//”标记。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 测序原理和过程
    • 1.1 第一代测序:
      • 1.2 第二代测序
        • 接头:
        • 加接头方式:
        • 测序过程:
      • 1.3 三代测序
        • 1.3.1 实时单分子测序(real-time single-molecule)
        • 1.3.2 complete genomics公司的复合探针-锚定连接技术(combinatorial probe-anchor ligation,cPAL):依靠荧光检测来测序,提高了测序速度和通量
        • 1.3.3 Life technologies公司的离子流探测测序设备(Ion torrent)
        • 1.3.4 Oxford nanopore公司的纳米孔单分子测序技术,避免了荧光检测和对主体DNA序列的PCR扩增。
      • 1.4 第一代、二代、三代测序比较
      • 2. 常用数据格式
        • 2.1 DNA序列表征
          • 2.2 fastq和fasta
            • 2.3 GenBank格式
              • 2.4 EMBL格式
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档