第六课：单细胞VDJ数据分析原创

6天前2024-07-07 12:09:24播放327

点赞0 收藏 0

第六课：单细胞VDJ数据分析

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:03
好，时间差不多了，我们来上我们的第6课。哎，有关单细胞VDZ的一个分析啊。关于单细胞VDZ啊，哎，尤其是关于VDZ的一个分析啊，大家首先要了解一下它的一个行业背景。嗯，在这个医疗领域方向啊。大家应该听过这个卡替疗法。呃，就是依据抗原抗体结合的一样一个原理，对这个淋巴细胞呢进行改造，让它本身呢表达某种抗体，哎，结合定向结合那个肿瘤细胞的抗原，从而达到治疗癌症的目的。嗯，这个已经非常成熟了，已经现在已经推广，呃，在市面上使用了，这个非常的贵啊。但是呢，这个技术有一个很大的缺陷就在于它只能识别细胞表面的一个蛋白，哎，细胞表面的这个抗原。哎，对于细胞内部的抗原呢，它就无能为力了，那么细胞表面的抗原占所有细胞的蛋蛋白的多少呢？哎，不到10%啊，所以说咖啡疗法的运用还存在一定的局限性。
01:12
然后慢慢的呢，人们就发现了这个VDZ的这个序列的一个特征。从而提出了最新的这个TCT的疗法。因为我们体内的TC就是T细胞啊，它能识别细胞所有的蛋白，呃，无论是包哎，细胞表面还是包内的。这样的话，在VDJ序列上就有一个很大的应用，能够应用到治疗肿瘤和癌症。嗯，其中最大的问题呢，就是能够找到这个具有特异性序，这种特异性的序列，哎，能够识别VDZ的这样，呃，能够识别这个特异性抗原的这个VDZ序列。哎，成为当下研究的一个非常热的一个话题啊。呃，关于单细胞VDZ呢，大家应该都或多或少都了解过。其中呢，嗯，单细胞V粒，这涉及到5撇加TCR这样一种测序策略。
02:05
啊，大家一般做这个单细胞呢，默认都是3撇啊，其实5撇也可以，哎，它可以添加一些VDC序列，其中呢，尤其做肿瘤做血液等等等等，哎，一般他会做无添加VDG。那么VDC序列的一个分析啊，呃，其实难度比这个纯单细胞分析要高。啊，也是和昨天讲的一样的道理，就是说单细胞转录组它的分析教程，哎，很多很多，大家随便都能收到，但是VDJ的教程啊，大家可以。哎，不妨搜一搜，其实教程也少啊，真正核心的内容啊，也不多啊，也不多，我们真正的VDZ的一个分析的目的是什么呢？希望能找到一个或者一些序列，能真正的识别肿瘤细胞，并且起到免疫作用。哎，这是VDJ分析的一个最终的一个目的。啊。
03:01
首先呢，我们来看看VDZ的一个序列特征，大家可以看一下，这个特征呢，大家都看过，像BCR它是重链和轻链。啊，T3呢，是阿尔法链和贝塔链啊。其中有少部分是伽玛链和西格玛链，其中呢，它在这个地方。哎，是细胞，它结构和细胞的一个结合区啊。呃，然后呢是重链，哎，重链和这个细胞结合区是相连的，然后这个地方呢，哎，重链的上游两个端和轻链是互补的，其中呢，它识别抗原的位置啊，主要就是在这个，哎，比较这个头的部分。哎，CDR123对吧，这CDR123啊，都是高可变区啊，他们在识别抗原的时候都起到了非常重要的作用。正因为它高可变，呃，可变性非常大。所以它能识别各种各样的抗原。呃，在基因组上呢，它涉及到这个基因的重排，哎，重排成各种各样的链，嗯，包括TCR也是一样的道理，其中BCR还有一个比较明显的特点，它会存在一种。
04:08
存在一种什么呢？位点超突变的现象，就是一个点它会突变成其他的点，这样的话，它的多样性就会，哎，又会增加很多很多啊，其中呢，我们人体的免疫组会有多少呢？啊，非常多呀，是呃，几百万啊，反正这个库非常大，几十万几百万这种就是为了对抗各种各样的外来抗原，以及本身产生的这种异常细胞。这个呢，是简单的VDZ的一个CDR序列的一个特征，哎，其中微基因，Z基因，D基因。哎，下面是对这个VDJ序列啊进行一个简单的划分，其中F211234呢是相对恒定区。哎，CDR123呢，是一定的高可变区，大家可以看一看，当这个VDVDZ啊，它的分布是有一定的一个特点的。
05:08
这也是为什么单细胞测序会选择在CDR3的一个原因，这里面啊，从VDZ的一个交合区形成了这个CDR3。哎，导致了CDR3啊，它的变化是远高于CD1和2的，大家可以看到CD1和2仅覆盖这个危机。而CDCDR3呢，覆盖了VD这三个基因，它也是在识别抗原一个非常重要的一个部分。在很多的研究中啊，主要集中在研究这个CDR3的一个地方。接下来就是对，是一呃抗原识别的一个主要原因了，这里我列了几，列了主要的几条啊，第一个就是重组多样性，这个重组呢，指的是基因上的重组啊，还有高拷贝。呃，拷贝的话就是说各种各样的拷贝在T细胞里面都有大量的存储啊。简单的罗列了一下原因啊，在最初的培戏主因组中，VDC片段有多个拷贝啊，就是说在基因组上VDJ其实是，哎，前面讲过VD这会期间呃，会出现会出现这个基因重排的一个现象。
06:10
就是各种外显子进行重排啊，高考贝一直啊高考碑意味着选呃低选择压，就是说。高拷贝意味着哎，极高的突变率和这个多样性。这个尤其是在这个突变率和多样性的一个体现的一个情况下，在我们得到外源抗体或者体内细胞产生异变的时候啊。VDG就会特异性的腹极某些序列啊，从而达到治疗的目的，呃，比如大家呃经常感冒啊这种的也会引起我们的体液免疫。哎和细胞免疫，细胞免疫是T细胞哎，体验免疫是B细胞哎等等等等，正因为它的TCR的一个序列的一个作用，哎才导致我们在启动了这个免疫之后，可以把我们体内的异常的哎抗原啊，包括坏死的细胞都给清除掉。
07:04
然后就是序列的随机删除引入的多样性，哎，这个在有些序列的时候啊，它会特异性删除一个剪辑。所以说大家在做TC2分析的时候，公司的一个哎，公司的一个分析报告里面会给大家一个哎长度分布的多样性，这个长度分布哪来的，就是因为它在哎重排的时候，包括位点的时候啊，它会对它进行一些位点的呃，插入缺失，导致它的多样性也会大大的增加啊。然后就是超突变了，B细胞有这种超突变的现象，就是说对一个点哎，突变成其他的点，而且甚至还添加了其他，不比如说磷酸化，核苷酸化，呃简啊，反正各种各样的那种化学修饰，哎也包含在这里面，导致它的结构啊，呈现更多的一个哎，更多的一个多样性。啊，右边的这张图呢，就是我们人体正常的一个，哎，合成这个TCR序列和BCR序列的一个过程，首先呢，我们有各种各样的VDJ基因，对吧，在重排的时候啊，只会选择其中的一个。
08:07
哎，来重排嘛，那VDZ序列。啊，当然危机也很多了，这地基因，哎，这基因都非常多啊，他们在重排的时候，我会选择其中的一个进行一个，简单进行一个，呃，严格的重排。这样的话，因为组合的多样性会首先会形成它的一个序列的多样性。等到下游呢，就会有更多各样的，呃，就跟这里面介绍的一样，呃，涉及到查入，缺失，拷贝，突变等等，哎，它的一个免疫条，免疫主库啊，就更加庞大了。然后呢，形成我们的VDC序列之后呢，我们的正常人和健康人在。VDJ序列的一个，呃，选择上会略有不同，像我们正常人为了维持这个体内的平衡啊，会正常的表达一些VDJ序列。呃，清除我们体内日常出现的一些常见的抗原，包括坏死的细胞等等，但是如果我们的疾病，呃，疾病，我们得了一些疾病，比如说肿瘤。
09:04
它也会产生一些特异性的一个VDG序列，哎，这个序列呢，就会体现出它和病正常人之间VDZ序列重排上一个不同啊，这也是为什么单细胞可以分析VDG的一个原因。VDZ啊，还有一个简单的概念，和昨天的那个a tag的概念差不多，就是这个motif啊。嗯，因为它那个VDZ啊，TCR, 尤其是TCR在识别这个肿瘤细胞的时候，并不是说特定的序列只能识别特定的细胞，而是一堆系列一堆序列，哎，都可以识别这个肿瘤细胞，比如像这样的。啊，一堆序列都可以，这个地方是C也可以。哎，这个地方是C，说明这个地方只能是C啊，F只能是F，但是在其他地方。哎，就有一定的可变性了，直接可变性啊，当然会出，呃，体现出一定的频率，比如说这个A频率最高，S频率是第二的，但是这些序列组合呀，都可以识别这个肿瘤细胞。
10:07
啊，正是因为存在这种多对一的现象啊，就是多个序列能对应一个抗原的一个现象。呃，所以我们的TCR在这个广泛性上还是有得到了普遍的适用。啊，但是多序列就带来一个另外一个问题，哎，什么问题呢，亲和力下亲和力低。前面讲到了行业背景的里面说话，卡T疗法是抗原抗体，抗原抗体的结合力啊是非常的强的，但是TCR和抗原的结合就非常的弱了，相对于抗原抗体它们的结合啊就非常的差。所以说在这个呃，研究过程中呢，如果找到了，可能对这个抗原有哎，有效果，有识别作用的TCR后面还会。经常还会做一下这个基因工程改造，把它的位点突变一下，增强它的亲和力啊，这个在这个酵母发酵啊等等方面已经得到了很大的应用啊，不过在人体上还是呃存在一个摸索的阶段啊。
11:06
哎，这是一个简单的一个序列了，哎，包括我们的CDR123，它的整体的长度啊，并不是很长啊，并不是很长，呃，其中呢，CDR3。哎，是我们最重要的一个部分，也是这个研究中更为关键的一个部分，它体现了哎，VD这三个基因的一个序列，这个序列它的碱基的一个排布，哎就像这样上面这个这个图一样，它的一个排布啊，就会体现出哎，它是不是一个哎核心的motif，或者说它这个motif集，哎，我们对他这个某if集分析，分析得到这样一个。积蓄的话，是不是可以起到对抗原的识别作用？这就是TCR呃识别呃分析的一个核心啊，不过这个，不过这种分析啊，目前还比较的。呃，难度还比较高啊，而且在前期做选择的时候。嗯，也非常的难啊。右边是一样的啊。
12:03
大家可以看看这个，我简单罗列了两种T细胞，它在这个T呃，Mot序列上的一个差异，包括t rag和t con啊。T rag的调节性T细胞，哎，T t con是保守性T细胞，他们在这个motive的啊，Motive的排布上就会有明显的不同，因为在不同的T细胞里面，它要行使不同的一个生物学功能，所以他们的TCR在抗原识别哎或者说成立抗原的过程中啊，他们要体哎体现出它不同的一个序列，才能实现它的一个功能。这个呢也是分析的核心啊，大家在分析T细胞亚群的时候，当然现在可能做3撇是没有这个信息的。做五撇的时候，哎，一定要体现出这个，哎，某替夫序列。尤其是大家分类亚群，比如说这个T湾和TXX，尤其是正常的疾病的TXX，它在某T上的一个差异，哎，就是我们寻找的一个，呃，治病是不是说能够治疗它的一个TCR的一个契机啊。
13:01
这是目前很多研究者他牛在干的这个事儿啊。然后呢，就是一些VDZ在这个，呃，VD在我们人体中的一个简单的一个排布了，哎，其中呢，呃，前人啊在研究这个新冠的时候，哎，收集了大量的这个。收集了大量的这个，哎，人体的这个TCR，呃，TCR数据，希望能从这个TCR数据中啊。找到能够识别抗这个新冠抗原的一个序列。哎，这就是它测序得到这个序列，大家可以看一下序列，哎，很相似，但有一些地方不一样，这就是积蓄带来的这个序列的多样性，其中呢，有一些可以识别这个抗原，有一些而不识别。哎，能够识别的抗原呢，进一步分析它的motif序列。哎，确定好某提夫之后呢，就可以转向这种，哎，无论是药物研究啊，还是临床应用啊等等，哎，就会拿到一个非常这个所谓的TCRT治疗的一个效果啊。
14:04
但其中有一个有一个这个概念就是TCRD的这个乐，直译过来就是TCR距离的慢径。这个半径什么概念呢？其合就是motif是一个一个样啊，一个意思，哎，大家都知道这个我们的这个氨基酸啊。呃，20种氨基酸其实分了好几类。包括碱性氨基酸、酸性氨基酸，哎，芳香烃氨基酸等等好几类。呃，同一类里面的氨基酸的相互替换啊，它的效果应该是不会差太多的，比如都是芳香烃，哎，它们相互替换是差不多的，所以说在某个位点。哎，某个位点它的一个呃，芳香定氨基酸变成另外一个方向的氨基酸，它的效果应该是哎，差别不大的。这个里面啊，就会体现出一个TCR距离的一个问题，就是说同类TCR序列，哎，它的相互替换呢，它的距离是比较短的，也就是说它行驶着同样的功能，只不过在亲和力上稍有不同，它们的TCR的相互距离呢就比较近。
15:05
但是如果说不同组的氨基酸进行替换，比如说碱性氨基酸，呃的位置换成了酸性氨基酸，那它整体的功能就会发生变化，这个时候呢，它们的距离均面拉远，通过一定的算法把它们给区分出来，哎，这个就是TCR。的一个概念啊。哎，所以在分析过程中啊，其实简单的序列分析，或者简单的氨基酸序列分析。嗯，还是无法达到我们真正想要的那种能够添加生物学意义的一个效果。啊，比如说机器A就是A。是吧？T就是T，它只能识别这个字母的不同，但是在这个氨基酸和这个序列分析上，A和T如果同属于同一组氨基酸，比如说都是。碱性氨基酸，哎，他们应该是相似的，应该给一个标签，哎，它们是相似的，这个就需要人为来进行判断了，包括人为做实验，包括人为的计算科学等等，简单的序列分析，其实还达不到这样一个效果啊。
16:08
然后呢，我们的T细胞啊，在我们体内大致分为两类，哎，像这个这种伽马西格玛T细胞，哎，固有免疫就是正常的存在我们的组织细胞里面。它的TCT啊，是这两个链组成。呃，但是呢，我们正常的也所说的T细胞啊，都是这个阿尔法贝塔这种T细胞。他在我们的血液里面占了95%，绝大部分都是这样的啊。然后它主要吃进我们的体，呃，细胞免细胞免疫。哎呀，无论在体内正常细胞，哎呀，损伤的细胞间接清除还是外源抗炎的一个。呃，识别并清除等等等等，都指的是我们阿尔法贝塔类的T细胞，但是大家在测序的时候经常还是会拿到这个这种伽马西格玛这种T细胞的，哎，这种序列呢，是固有免疫，哎，一般在分析中它不是重点。哎，但是有一些人呢，为了研究这个固有免疫，比如说固有免疫，它也会起一定的免疫作用。
17:03
呃，也会对它的序列进行一个简单的分析判断啊。T细胞识别抗原TC2，就是说亲和力低啊，亲和力低比抗原抗体亲和力要低啊，就是说就跟大家抓娃娃一样。能不能抓到呢？能只可能是10次才能抓到一次，或者100次才能抓到一次，呃，TCR也大，差不多是这个概念，就是说我们维持了这个庞大的免疫主库。啊，有一有一堆啊，比如说有100个TCR序列，可以抓到这个网，可以抓到这个抗原。啊，但是抓到这个抗也很容易掉。哎，所以说就要维持多次，就是数量多一点，比如说克隆啊，100个1000个，呃，一起抓它总有一次能抓到，这是一种弱结合力。哎呀，人体为人体，为什么要用这种弱结合力的方式呢？就是为了维持我们的免疫平衡。如果是那种强结合力。
18:01
哎，稍有不同，立马抓掉，把它消灭掉，哎，这说明免疫力太强了。啊，免疫力太强，对我们人体是有害的。明白吧，这是我们人体进化的一个结果啊，但是抗原抗体它确实是一种非常强的结合力啊，你抓到就掉不了了。啊，就和大家做那个TCR啊，反正现在也有一些这个测序技术吧，就依据抗原抗体这样一个方式把一抓到，呃，无论后面的测序啊什么的，包括各种实验啊，震荡啊等等，都不会干扰它的一个结合的一个。结合的一个情况啊，但是TC2不可以啊，这是一种呃，免疫性的一种考量啊。哎，然后这是结构了，蛋白结构，哎蛋白结构呢，大家可能对这个，哎对施工比较了解吧，它就是做专门做蛋白结构的，这也是现在TCR研究的一个关键的一个地方。就是前面我们筛选了这个TCR序列之后啊，我们第一步要看它的蛋白结构，哎，这个时候要涉及到冷冻电镜的一个效果了，对吧，看它的蛋白结构等等等等冷冻电镜啊，乱七八糟的，哎，看到这些结构之后呢，进行基因工程改造。
19:07
基因工程改造之后呢，计算它的氨基酸的一个权重，哎，就是其他亲和力到底有没有改，有没有提高，有没有降低等等，这个呢，在蛋白蛋白质结构组，结构学生物那个叫什么结构生物学上啊，非常的重要啊，大家将来可能有的人会从事那个结构生物学的计算，它也是生性的一部分，一个分支啊，也非常重要啊。通过计算机模拟呢，看看突变哪个氨基酸会增强它的亲和力，哎，把它这个计算一下，得到的亲和力啊，可能会得到很多的很多的序列，然后大把大把的序列对它的结构进行研究之后呢，筛选出哎，大家想要的这个序列。就可以了啊，这是从蛋白结构的角度来看这个TC的结构啊。呃，然后呢，TCRBC的分析软件呢，这个已经非常多了啊，哎呀，他这么超过，哎呀v DJ tos驱动公司啊，主要给大家的结果就是这个v DJ tos的结果啊。
20:13
还有一些这个，呃，Deadline.埃德line呢是主要分析B细胞的。呃，它也可以分析T细胞，它为什么主要分析B细胞呢？就是前面提到了B细胞有一个超突变的现象。哎，这里要有专门的软件可以识别这种超突变的一个情况，从而达到分析它多样性的一个目的。哎，这个文章我都列在这儿了啊，大家有空可以看一看，包括这个文，包括这个啊，也是公司常用的一个VBC分析方法。哎，还有这个K啊K啊，其中啊这个deadline。大家可以看到发的文章是。哎，这个房子就非常高了，很值得大家借鉴啊，还有这个conga。
21:00
它也是非常好的一个方法在识别，呃，这个固定细胞的这个motif方面，哎，也是非常好的啊，文章也发在这儿了，他也发了很高的文章啊，就是说大家看方法。哎，可以看看这些高分的方法，而且大家不知道有没有发现啊，现在发的这些高分的方法基本上都是Python版本的。很少有R版本了啊。包括前面为ADA attack提到的那个smack，呃，Snack a attack最近才发的文章都是Python版本，并且发到了这个ni be来，呃，NB啊。哎呀，这是软件的一个总结啊。大家可以看一下，包括什么track呀，什么乱七八糟的，反正很多。哎，很多。呃。Python居多，哎，因为Python在这个序列识别上是优于R的，R在数据处理上是优于Python r可以处理一二三，但是在R在处理这个生物学的时候，比如说处理at cg的不同的时候，那个就，哎，差强人意了，就得用Python来识别了，这种序列结构，包括这个。
22:07
ATCD, 它的序列排布啊，包括motive的一个分布啊等等等等，这个我们就需要借助Python的力量来实现它了啊，这也是为什么VPZ啊，哎，分析的比较少的原因，包括公司都不怎么主推他啊，确实分析难，一方面分析难度比较大。另一方面啊，确实再结合这个。生物学意义上啊，哎呀，解释起来是非常难的啊。哎呀，其中重点点几个软件，就是这几个软件，哎，我认为比较重要的，哎，都给大家列起来了啊，列在这儿了。呃，其中呢，我如果大家分析BCR，我推荐用这个deadline啊，如果是TCR，哎，推荐用conga，但是公司呢，一般用v d z tos啊，但是在这个市面上，大家如果找一些合作项目，哎，找一些人合作什么的。这个ISH曲目这个呃，用的更多一点。
23:02
这些软件啊，没有说哪个好哪个坏，它只是各有所长啊，他们在分析上各有所长，包括这个。它的一个分析的一个特异性，哎呀，指标表里面都给打勾了，比如说像这个deadlines，它可以分析BCRTCR，但是在con格重建上它就无能为力了，抗T格重建是什么意思呢？就是大家分析的TCRBCR序列必须要进行一个。呃，和免疫主库进行一个比对，把它的一个短的序列片段拼接起来，看看它到底是哪种VDC组合。而他没有这种能力，嗯。哎，有重新注释的能力，但是大家在拿到这个实成的结果的时候啊，他已经注释好了，已经拿到这个文件了，告诉你是哪几个基因了，基因是什么都已经告诉了啊。啊，但是如果说你觉得实成的布置想要重新入市，它是可以实现啊。包括指控啊，可视化呀，聚类啊，TCR和BCR也是需要聚类的啊，TCR和BCR的聚类和呃转录组的聚类不一样，转录组的聚类呢，是依据这个基因表达，哎，大家表达的相似，哎，就算聚类了，但是在TCR和BCR的聚类情况下，是不是这样的？TCR和BC的聚类主要是参考序列的相似性。
24:17
这种相似性我考虑到多个方面。不仅仅是这个，呃，不能仅仅是A和T，它俩不一样，只能是A和A，和前面讲到的一样，如果是同性氨基酸，哎，它们就是属于相似的范畴了，明白吧，都是碱性，它们就相似，都是酸性，哎，也算相似。不能简单的判断A和T，哎，它俩也一不一样啊，所以说在这个聚类方向上，诶，各个软件都有它，哎，独特的一套算法，把这个氨基酸进行了一个分类。在计算某替负上，这个是非常重要的啊。还有一些，嗯，其他的一些分析啊。包括多组些integration啊integration，呃，还是那句话，大家在这个TCR序列的分析的过程中啊，很多时候TCR要和这个单细胞转录组进行一个结合。
25:07
就是说我们分析这个TCR序列，要回到它TCR表达的情况上来看一看，这个时候呢，有些软件就会结合两者信息进行一个联合分析啊。其中啊，如果用TCR。哎呀，分析这个和他转录组和联合的分析的时候啊，推荐这个。石油NG啊，这个之前也都写过文章推荐过啊，他本身也发了很高的一个很高的一个文章啊。然后还有一些诶和单细胞工具的interaction，就是相互之间的一个。呃，兼容性包括这个软件都是可以的啊，这个表呢，大家自己保留一下，万一将来大家有了T12B2序列，要针对不同的一个信息啊进行一个。呃，进行一个，哎，合适的选择啊。啊，公司的话就是VD的套S啊，这种师生自带的问题给大家分析一下啊，但是如果大家想发好的文章，拿到好的结果，还是要自己多研究研究啊。
26:04
然后呢，这就是分析框架了，哎，拿到这个单细胞序列，经过这个测序之后呢，拿到这个VDC，你看都是短的片段，首先第一步要进行一个基因组装，来组装成完整的一个序列。主张出完整的序列之后呢？然后进行比对，比对之后呢，就会告诉你，哎，它是TCR是哪几个基因组成的了，是V是哪个基因，D是哪个基因，这是哪个基因等等等等，如果就呃10层呃，自动就干了这个事儿了。就告诉大家是哪个序列了，但是如果说大家觉得不合适，哎，又要进行一个借助其他的软件进行重新注释啊，重新注释之后呢，又会拿到真实的这个抗康，就是拼接好的序列，哎，就是VDZG什么基因都告诉大家了啊。这个AIR是我们人体免疫主库的一个书写啊，就是我们人体免疫主库到底有哪些，这是一个数据库啊，我们呃时常提供了，大家可以下载一下，通过这样的一个拼接好的序列和数据库的一个比对，哎，就知道我们是哪些VD的重排了。
27:04
然后呢，拿到这个VD的重排信息呢，这边有一个基因表达的一个信息，哎，一般也是10成的啊，10成拿到之后用SHV5或者V4吧，或者Python版本的SC，经过一通分析之后。拿到细胞，呃，细胞水平的一个基础信息，包括它的一个注释结果，包括它的一个。聚类结果等等等等，哎，这个时候呢，通常会在VBZ和表达矩阵的，哎，两者之两者结合的前提下进行联合分析啊。一方面拿到这个。表达信息，另一方面也拿到它VD这序列信息，哎，经过无论是各种各样的软件吧，哪个软件的优劣势大家要自己学习，包括带的lines啊，包括CPA啊等来分析它不同细胞类群之间motif motif就是TCR序列的一个。呃，负极的程度，包括结合的一个差异性。这里面啊，有两点大家一定要注意，第1点，TCR或者BCR只在免疫细胞序列中存在，也就是说在分群的时候，哎，着重关注于免疫细胞。
28:11
组织细胞不含有这个。当然了，如果是在空间上，组织细胞也要关注的，就是说这些PCR序列或者PCR序列。它在空间上所占的这个位置，是大家所要关注的一个重点。第二个呢，就是对TCR的一个分类的一个效果啊。我们都知道我们的TCR和B，呃，BCR就是T细胞和B细胞，它在正常细胞和啊，正常组织和这个肿瘤组织里面啊，分布是有差异的。比如说T细胞，哎，我们分亚群分了5类对吧。其中有一类是这个疾病独有的，或者说是疾病占主导的，那它TC所复及到的某T府，很可能就是对这个疾病产生这个治疗效果的这个序列。这就是我们所要分析的一个重点啊。
29:06
哎，接下来呢，就是一些下游分析了，包括这个基础的指控啊，包括它TCR的一个，哎，空间啊，U外图的一个分布啊。包括它和这个转录数据结合形成的这样一种。哎呀，包括还有什么染色体可行性啊等等，其实这是多主学的一个方向啊，多主学一个方向大家可能嗯也都慢慢感觉到了，其实我们现在的分析都是多信息来源了，单一信息来源其实越来越受到大家的质疑啊。当我们结合多信息来源的时候，哎呀，他们的它的这个分析结果啊，准确度就相当高了啊，然后呀，TCRBCR多组学的neighborhood，这个neighborhood就是刚才提到的一个聚类的相似句啊。拿到这样一个结果之后呢，就可以得到，哎，我们整体的T3它的一个分布。最终，哎，最终的最终拿到具有特异性的这个某替夫序列。这是我们最终的目的啊，各种各样的软件吧，是吧。
30:03
呃，这个里面还是要再强调一下，刚才所说的啊，就是说转录组在分析的时候大家分好了T，呃，T细胞亚群或者B细胞亚群。有些群呢，是疾病所独有，有些群呢，是这个共有，共有的序列的某体服其实并不是我们关注的重点，而更应该关注那种差异性的。比如说T细胞分了5个群，对吧，有一个群是疾病占主导的，也就是说疾病类才会独有出现了这个TC小群。哎，如果大家有TCR序列，一定要把这个TCR小群的一个。呃，序列啊，进行一个某替分析，看看它的一个分析诶是怎样的，它的一个积蓄是怎样的，这就是大家分析从单细胞能够分析到的一个最终序列了。至于下游啊，下游就是另一个方向啊，包括这个序列它的亲和力有多高，是否真正能结合到抗原，这个要实验验证，包括在生物结构生物学上的一个补充啊。
31:04
空间上非免疫细胞也要关注，因为它T细胞它在特异的序列啊，它是要消灭这个坏死的细胞的，所以说呢，T细胞它会在空间上有一定的排布规律，比如说它如果真的能起到抗肿瘤效果。哎，它会深入到肿瘤内部，在这个这个在这个组织学上叫免疫进入。啊，如果他这个TCR序列没有起到效果，那它就进不去，哎，就会形成那种耗竭T细胞，肿瘤内部就没有免疫细胞的存在啊，这个在空间上是要把这个能够浸润肿瘤组织的T细胞，哎单独抽出来。分析他的母T序列的，看看它是否真的可以拿到这个针对肿瘤细胞的一个TCR序列进行一个分析啊。空间对于这个免疫治疗非常的关键啊，非常的关键，你别看我们单细胞分析了一大堆对吧，分析了一大堆，最后发现诶疾病特有的小群，看到他这个某提夫序列，然后下面又做，下面要做实验验证，对吧，这个过程其实是非常粗糙的啊，比如说这个群。
32:10
疾病有。但是他这个群是否真正能浸润到组织细胞呢？不知道。大家都知道TC是这种细胞免疫的，它必须和细胞表面结合，把它消灭掉，对吧，它和细胞是存在一种啊，如果能起效果的话，是存在一种共定位关系的。啊，但是T细胞看不出来了，把它给解离了是吧，这个时候呢就不知道了，这个时候只能借助空间的力量来做它。嗯。好了，这就是简单的一个分析框架啊，提到了这些包括啊。啊，当然TCR和BCR自己也可以单独分析啊，这些软件都可以单独分析啊，包括什么QOC啊，指控啊，结合转录组啊，拿到这个虚拟文件啊等等等等，这个都基本上前面都讲了一堆，讲了一轮了啊。还有一些多模态分析啊，多模态分析其实呢，就是说多组学，比如说蛋白质和这个RNA，再结合VDC啊。
33:06
嗯，其实大家应该感受到了，我们的序列分析啊，其实还是相对简单的啊。真正难的是蛋白结构分析和这个，呃，基因工程改造，把它改造的更具亲和力，下游的分析更加重要，但是难度也更高啊，可能要涉及到冷冻，电竞以及这个。啊，以及这个基因工程改造，包括这个，呃，有一个专门的学科叫生物物理，哎，就是物理结构这种方向啊，也是非常重要的啊。所以说大家将来要学习这个生，要在生物行业有所建树的话啊，其实这个就是说跨学科是大家的必经之路啊，无论跨哪个都可以，生物物理，生物化学。啊，生物信息等等都可以，包括生物材料都算是很好的一个方向啊，但是纯学生物其实是没有多大的价值的，包括大家知道了TCR序列的差异。如何把它应用起来才是关键啊。
34:03
啊，然后呢，这个也是简单的一个处理啊，这是一些文章分析的一个思路框架，哎，S润子也告诉我们了，这个S也就只能告诉我们这个了啊。VDZ的还一个负极的一个程度，包括它的一个多样性啊，然后呢。后面呢，我们要根据这个多样性来判断，这个时候就体现空间的作用了啊。B细胞在发育成成熟的B细胞之后呢，哎，它有一个聚集效应，就是说它会优先的。呃，分布啊，把这个周围的细胞优先给它改造成这个像这个能够起效果的一个B细胞啊，把它的序列经过一个改造，改造之后呢，哎。就会形成特有的B细胞了，当然这个b memory说明它已经那个了啊呃，体液免疫结束了啊，然后呢，有一些网络分析，就是我们前面提到的一个序列分析，根据结构相似性把它聚成一类。然后还有重链轻链等等啊。
35:00
TCR呢，就比B细胞更加复杂了，大家都知道BCR是分泌抗体的。啊，但是BC啊，但这个TCR必须结合细胞表面来进行一个抗原识别，把它给干掉，这个时候呢，聚类啊等等RNA的分析就非常重要了啊，如果仅有单细胞数据，就要必须分析出疾病特有的TCR的一个小群，或者说如果群都差不多，和正常的T细胞群没有任何差异。呃，那说明可能啊，可能大概率免疫逃逸了，没有起作用。如果说有独有的小群，就是免疫这个疾病，有独有的小群，说明我们体内还是有一些T细胞能够识别并消灭它的啊。这是我们研究的重点啊，但这个地方由于这个亲和力的关系啊，可能很多时候分析上还存在一定的疑惑，因为亲和力低嘛，所以说在分析上哎，可能会出现一些假阳性的结果，所以在TC和BCR上很多时候还是要补实验数据的。
36:01
然后呢，就是文章中常用的一些套路了，啊套路了，第一个就是轨迹加VDJ序列。什么叫轨迹呢？就是单细胞大，大家分析的那个什么，你时序分析啊，你时序分析他现分析了，你时序分析很多时候啊，都是告诉他，哎呀，它的一个结构变化对吧。结构变化，呃，就是基因的转变等等等等，但是在TCR的世界里，如果如果我们分析这个T细胞的轨迹，如果我们分析T细胞的轨迹，哎，很多文章会把这个TCR的序列的负极程度，负极的变化在轨迹上的一个体，呃，以会在轨迹上进行一个体现。就跟大家分析那个恶性上皮细胞一样。仅仅分析这个。哎，仅仅分析这个，呃，基因的转变其实还是不够的啊，有的人会把这个CNV的一个分数给他附上去。哎，告诉他是因为他在恶性向恶性程度转变，或者是呢，或者说像良性程度的转变，哎等等等等，这是这也是多信息来源的一种分析分析补充啊。
37:11
这就是我们前面的一个呃主体思路了，接下来是一些软件的一个分析内容啊，包括一些配对啊，大家都知道为是重量轻点配对等等，这个配对啊，其实是每个软件的基础分析，告诉你配对的一个情况啊，包括它负极的一个程度，比如说我们在正常和疾病进行比较之后呢，发现这个链。占据了大多数，呃，说明细胞啊，说明我们的体内啊，在疾病的状态下，哎，特异性负极了这个基因的一个序列。呃，至于第二条链，如果种类比较多，就体现了它的一个多样性，哎，Motif多样性，进行一个呃，Motif的一个分析，看看它的序列是怎样一个状态。第二个呢，就是长度的一个分布，哎，变化的一个片段就是长度。嗯，这个长度分布啊，就和刚才提到的哎，TC啊，经常会有这种插入缺失啊，啊包括这种超突变的现象，所以它长度分布也是这个。
38:04
哎，很有有很大有很大的一个差异的。但是这种差异啊，不是我们关注的重点啊，我们更加关注是哪个具体的训练能够识别，但是这个图啊，作为一种这个基础分析的内容还是非常好，哪个软件会自带啊。然后就是VD在重叠了，VD在重叠了，其实就是说。比如说我们正常和疾病，哎，它哪些微粒，这具有重叠效果。这个会，这个在张泽明的文章里面，大家看那个张泽明他研究这个免疫的细胞的文章的时候，经常会在这个肿瘤研究中，把血液的VDZ和肿瘤细胞能够进入的VDZ进行一个哎，重叠分析。以此来判断肿瘤内的呃免疫T细胞是不是来源于血液，是不是来源于血液啊？他们的共有分析呢，就是体现它的一个危机的序列的来源。正常的组织内的驻留细胞，驻留T细胞是很难起到这个杀灭肿瘤的效果的。一旦我们得了肿瘤之后呢，细胞引起这个各种各样的反应，首先从体液调度了各种各样的这个免疫细胞，包括T细胞，包括B细胞，嗯，因为我们B细胞T细胞主要来源于胸腺和骨髓嘛。
39:12
这样的话来到这个，哎，通过这个血液循环来到我们的这个肿瘤组织的一个周边能够浸润，哎，当然是最好说明它真正能够识别，哎，肿瘤细胞能够进去能够识别它，但是能不能起到效果就是另一说了啊，首先能识别是肯定的啊。然后通过这样一种共有序列的一个分析呢，看看它的一个哎来源。接下来呢，就是一些更多的一个分析了啊，这都是文献常见的一个地方，问定是差异常见的地方。第一个呢，就是聚类，依据这个序列多样性进行一个聚类啊。剧烈还是那样的，哎，同性氨基酸，同性氨基酸是具有相似的一个距离的啊。
40:01
然后呢，就是某if分析，某if分析呢，别看这里面放了这个这么多的某if分析，但是呢，前面的处理过程非常重要，就跟我刚才提到的一样。哎，T细胞你不能样本整体比较，那个是没有意义的啊。一定要分析出疾病独有的T细胞小群或者B细胞小群。啊，甚至空间上如果是空间序列的话，一定要能把这种能够浸润的T细胞给它专门的诶抽出来分析它的一个序列，这才是具有最具有生物价值啊，右边这张图呢，也是一个简单的一个处理分析了，哎，包括我们的输入输出等等，对TCR进行一个聚类。包括TR的分布等等啊，这都是一些简单的内容啊，大家要。掌握这个思路的一个分析。这个呢是多组学的分析啊，基因的分析要结合这个转录组的分析，就是这个软件CNG比较推荐的啊，就是说如果大家做多曲学联合的时候，这个软件是非常推荐的啊。
41:04
基本上也是在基因表达的一个基因表达的一个层面，结合这个TCRBCR的一个层面，两者进行一个结合，哎，分析它的整体的一个转入相似性，以及T+R的一个相似性。拿到我们想要的结果啊，这个想要的结果当然就是针对疾病哎，具有特异性的TCR序列。嗯，这就实都是一些文献应用了啊，前面基本上都讲了，第一个是共享啊，看看它的一个来源，第二个就是某if，哎，具体的T细胞某if都有什么，第三个就是VDJ轨迹，哎，随着轨迹变化，它的VDZ的负极的一个情况啊，这些大家都要在自己的研究中，哎。自己的项目中运用起来啊。啊，然后就是一些简单的应用啊，其中如果说大家对TCR序列不敏感的话，其实这个TCR结合轨迹分析啊，是目前最常见的啊，是目前最常见的运用的比较多的啊。
42:16
但运用的比较多的这个，哎，这个反正大家如果要做到这个很容易实现的啊。然后就是免疫细胞和肿瘤反应性了，就是前面提到的啊，我们更希望知道，哎。确定T细胞中TCR序列和肿瘤反应性的一个关系啊，就是说真正的能实现我们的TCR序列，能够能够真正识别我们的肿瘤细胞，从而达到。哎，治疗的效果，为下游分析做一个充分的准备啊。这就是TCR的一个简单分析的一个内容了啊。大家休息5分钟吧，休息5分钟，我们来看看代码部分啊。休息5分钟。
43:12
微粒G变化分析，讲清楚一个结果，讲清楚什么结果。这个轨迹分析啊，它主要是为了体现VZVDZ在轨迹发育的过程中啊，它的TC，它的TCR序列负极的一个情况啊，就是一开始是怎样的序列，等真正到达它那个分化末端，哎，它到底是一种怎样的序列的一个变化啊，这个是它的一个最终的目的，因为大家都知道我们在疾病的过程中啊，呃，疾病的风呃过程中呢。呃，细胞一开始，哎，我们体内有一些体未必这序列，但是真正达到T细胞的时候呢，真正到了肿瘤免疫的时候啊，其实细胞已经，呃，T细胞已经经历了各种各样的一个变化。哎，这个地这个地方呢，就会涉及到它的一个呃，分化转变，分化转变的时候呢，就要体现出哎，T细胞在整个分化转变中，它为了能够识别这个抗原，哎识别这个肿瘤细胞，它到底经历了怎样的一个VD这重排。
44:12
经历了怎样的一个复极的一个过程啊，这是T细胞轨迹啊，T细胞轨迹联合VDC序列的一个核心意义啊，其实还是为了找到能够识别T细胞的，呃，识别抗原的一个T细胞的一个序列啊。当然前提是大家的单细胞数据有真正能够识别抗原的微粒质序列啊，没有的话做轨迹分化也是，很多时候就会分化到那种耗竭性体细胞了，那个就完全没有用了啊。外阳那边是NC吧。应该是啊，大家可以看看啊，休息5分钟啊。
50:05
啊，大家有什么问题可以在群里提问啊。关于PCR分析，其实它的分析难度是比单细胞哎，转录组要高的啊，它因为它涉及到这个序列的分析了。这个就不是简单的12345能所能替代的了啊，而且20种氨基酸，它在相互排布上会产生各种各样的啊，非常庞大的一个组合啊。大家拿到的这个实成结果啊，类似于这样的。啊，类似于这样的。8扣的。哎是不是个细胞，哎抗这个哎抗定ID是不是高的confidence，就是说他在分析的时候是不是哎更可可信，哎长度啊，哪个链啊VD这基因是什么呀？合定基因是什么呀？全长是序列是什么呀。嗯，然后productive就是说它的产生的一个序列啊，等等等等啊，包括它的。
51:00
氨基酸序列和核苷酸序列啊，各种各样的序列，反正啊。大家可以看到它并不是一个简单的一个矩阵啊，更多的是一个什么呢。基因。序列。哎，如何从基因序列上提取有效信息，也是大家将来要学的一个。哎，非常核心的一个内容啊。嗯。啊。来，我们来装一下啊。这个版本呢。这个这个分析的软件这个版本啊。哎，必须是2.0版本啊，就这个软件必须是2.0版本啊，它更新了1.0版本，现在已经落后于这个呃分析的时代了啊，它更新了一些很多的内容。
52:11
嗯，包括一些其他的，我们来看一下啊。嗯。其中啊，我们需要关注的一些分析，大家基本分析都都有，包括多样性啊呃，序列啊，包括这个长呃number啊。呃，密度啊，等等等等都有，但是我们这个不是我们所关心的。呃，我们要更多的是要拿到他的这样一个结果。某T序列分析的结果啊。不在这儿。
53:00
哎，这个里面就是刚才提到的常见的所有分析基本都有啊，基础的克隆分析就是多样性啊，长度片段分布，第二个是可视化，第三个要总，呃，Summary summ RAS就是它对哎前面技术分析的一个总结，最重要的是要体现克隆多样性啊，稀有的fraction啊，就是稀有的T3序列，它的一个比率。包括它的overlap，还有这个聚类了。哎，依据距离来积累，这个就是我们重点分析的一个内容啊。然后接下来呢，它还有一些结合单细胞的一些信息啊，包括这个精因塞的腹集啊，这些内容啊，大家一定要好好看看啊，好好看看。嗯，他会对TC进行聚类啊，这也是我们想要的一个分析结果。我们更新一下这个软件啊。更新到2.0。
54:09
11、什么？停。这个软这什么啊，这是流程图啊，流程当然都是AI做。软件不做啊，他只是告诉大家分析思路啊。GT.
55:37
这个图大家应该见过吧？哎，叠加序列相似图啊，这种图呢，在文章中也很常见。哎，哪个T加相似，包括它的风度有多高等等，把它体现出来啊，大家在做T3R负极的时候啊，其实抓住一个核心就可以。稀有细胞类型的某分析啊，这是它的一个核心思想。
56:05
啊，当然了，有两个方向啊，一个是NT。就是核苷酸，一个是。A就是氨基酸。哪个序列更重要呢？当然氨基酸更重要啊。这个根据大家的需求要判断，一般都是分析氨基酸啊。包括一些安全的序列，它的一个负极啊等等等等。相当麻烦。装这个。我们升级一下啊，升级一下。
57:20
那包一更新啊，很多时候只更新到DVS。大家知道包有分类，分为三种，一种是这个DV tos, 说明这个包是明这个软件还在于测试的阶段啊，并不是很稳定，第二种是bio manager这种方式。这种方式呢，是相对稳定，但还不是那么稳定啊，说明还是有一些改动，等大家等真正的可以做到完整的应用的时候，就是。哎，这种这种这种方式。这种方式了，Install package.就这种方式，哎，这种方式装的包呢，就是它稳定性最好。
58:04
这个1.0版本啊，它有一个问题在于它这个函数啊，很多都没有，比如说这个函数啊。我们把包夹在上看一下。它这个函数没有，这个函数是用来识别什么呢？识别这个。第一张图，克隆多样性。他没有这个1.0版本是没有的啊。哎，这个包怎么装这么费劲？
59:24
那个网很有问题啊。
60:02
这个包装不上啊。哎呀，之前装包装怎么装的是1.0版本应该装2.0啊。做一下这个包子装吧。
61:31
啊，这些依赖真的是烦啊。
62:20
啊，这个也装不上。啊，有些包就是很难装啊，装起来特别费劲啊。
63:15
康纳装也很慢啊，康德装也很慢啊。没有办法。稍等一下啊，我们来装一下。大家装包啊，尽量都装在服务器上啊，不要用自己电脑装，等你的包多了之后啊，很多时候就装不上了。
64:02
哎，对，电脑负荷非常大。今下题我们来看这个包干嘛的？嗯，可以了啊。某学包啊，它依赖一定的C语言库啊，C库这个装的时候呢，会比较的麻烦，不像大家装那个机器plot啊很快。很多库啊，它依赖很多的底层逻辑，需要大家重新安装啊，就比较费劲了。
65:06
装我们的2.0版本啊，我们要装2.0版本，不能装1.0啊。1.0版本，很多函数是没有的。尤其是在分析motif的时候啊。啊，现在其实越来越多的研究啊，也已经认识到了这个母体部序列的一个重要性，所以各个软件都已经更新了。包括这个大档啊，我们来看一下这个这个大档啊，它分析B项是非常好的啊。但是大家要注意啊，看这个软件的时候一定要看完啊。一定要看完啊。他这个分析逻辑其实和刚才讲的差不多啊，也是一样。VDC和转录组。哎，VD这个转录组联合分析的一个结果啊，当然每个软件啊，如果它这个软件非常可靠，非常的，哎，非常的这个发的分比较高的话，它的一个教程啊都非常的长，它会详细的说明软件的原理方法。
66:09
以及这个使用的事例等等，大家看完之后呢，再根据自己的需求。来进行一个。根据自己的需求再进行一个。哎，合理的一个代码的设置啊，千万不要一个有个教程就跑啊，比如说我们常见的呃，VDZ分析，可隆考里，哎，我看到了VDZ分析。这还是处于这种链的分析，哎，它也有这种这种，哎，克隆大小的一个分布，就和刚才这个这个差不多。哎，这种差不多啊。哎，包括它的分布，包括它的长度，呃，VD的usage等等，频率啊等等，这都是一些简单的基础分析啊，来体现它的多样性的，第二个就是配对。
67:01
嗯，和overlap overlap的话就是说不同群之间，它的overlap有多深啊，当然这属于基础分析的范畴啊，接下来就是一些聚类啊等等，他在分析实成的时候是非常好的啊。这里面大家可以看一看它的一些核心的一个重新注释呢，这个大家一般就不要再做了啊，第二个就是实成结果啊，一般现在大家都用的是实成啊，还有它和这个软件嫁接，呃，软件之间它内部啊也会取长补短啊，看看它分析的一个效果啊，然后是指控，诶VD的聚类，聚类呢，就是刚才提到的根据序列来聚类，和那个值12345可不一样啊，然后是可视化。哎，可视化，这个可视化了，就和刚才那一样了，相似的要放在一起，哎，不相似的把它丢一边去。哎，这种聚类啊。哎，然后是计算距离和突变，这个突变啊，就是针对BCR设计的啊，T细胞是没有的，超突变只有BCR，哎，分析它的突变信息等等等等，哎，教程非常长啊，分析T材啊等等，最终的结果呢，会拿到它一个核心的某TF序列啊，这是我们分析的一个最终目的啊。
68:21
你们稍等一下啊，把这个包装上。而且某幸福在分，呃，这个分析的时候啊，大家一定要像文章一样讲清楚啊，可不敢瞎讲啊。比如说这个。啊，一定要讲清楚啊，你看它的表示形式SLG。SLG是哪这个地方，这个地方呢，不确定用百分号表示，然后是NTE等等等等啊，就是说有些地方可能涉及到多个氨基酸的时候呢。啊，一般用百分号表示啊，或者说用一种。呃，其他的方式在针对这个某推府分析的时候啊，尤其是这种固定序列，固定序列就是它的一个核心序列，有一些它的序列啊，多个氨基酸都可以啊，4个氨基酸就可以，或者说好几个都可以，这是它的可变序列，可变序列对它的亲和性有影响，但是对它的整体功能没有影响，比如说都可以，比如说都可以识别这个抗原啊，但是呢，由于这个位置不一样，可能亲和力少有差别，本来TCR的亲和力就低。
69:23
哎，这个地方呢，更限制了他的亲和力的影响啊。所以说TCR分析啊，其实是一个很大的一个工程。不是大家简简简简单单的能够，呃，看看T细胞啊，看看单细胞分析就可以搞定了啊。我们来看一下2.0版本啊。啊，2.0版本才有这些函数啊，我们来看一下。首先呢，我们要准备一个文件，哎，这个文件是什么呢？就是Sample文件，诶sample文件呢，大家要准备什么，第一个把它的名字写上，第二个是它的就是市场的文件。
70:06
这个文件呢，我这里面已经准备好了，哎，格式也给大家看过了啊，主要就是8扣的，哎，是不是个细胞。哎，卡序列它其实核心抓的呀，是这个细胞信息。呃，还有这个基因的信息，VDJ是哪几个基因重排得到的，包括它是哪个链，TRATRB, 大家都知道，一个细胞只会表达一个TC，呃，VDC序列配对的啊，还有它的蛋白质序列。哎，还有它的核苷酸序列等等等，这是他抓的一个重点。啊。然后我们来看一下啊。哎，我们的input file呢，就是这个3啊。嗯。第三列还有个分组信息，这个分组信息哪来的？就是正常和疾病，大家这个自定义的啊，自定义的。
71:02
哎，然后我们来读一下啊。读一下之后呢，如果说它是TCR，哎，自然就是用TCR的这个啊，我们是TBC啊，我们也是TC啊BC，大家推荐大家用那个deadline啊deadline。像这种T呃呃，TCL的就用这个，我给大家这个就可以了啊。大家来看这个啊，TCR的分析是比单细胞主要录组要复杂的啊，大家一定要把它在这个基础之上深入理解之后呢再去。哎，再去做它的一个分析，哎，结合之后呢，就会产生新的一个数据结构了，每个样本它的TCR序列，BCR序列，包括8扣的信息，包括是否配对，哎等等就都拿到了啊。接下来呢，第一个就是绘图了，绘图当然这个绘图方式啊。好，这个函数要定义一下啊。
72:01
首先第一步还是那个要绘制那个呃，序列多样性的图。怎么还没？是的。我来快快过一下啊。然后是数据合并。
73:02
颜色的定义啊，这个颜色定义呢，前面定义好了，这个颜色为什么要定义呢？就是大家绘图的时候啊，有些默认颜色太差了。所以每个脚本我都会给大家一个颜色的定义啊，这个颜色的搭配是在项目中运用得到的啊，非常的好啊，颜色非常的就是搭配的非常有层次感。摄像头那个啊，这些参数设置的时候。哎，大家这个参数设的时候一定要跟我一样啊，设的详细一点啊。好。刚好是。哦，这个地方不对啊。
74:07
这个地方不对啊，这个地方要前后一致啊，有问题。改过了。哎，这个时候呢，我们就绘出了第一张图。奥特DRR啊，设置一下这个变量啊，如果不外部指定，一定要内部指定啊。这个我们写test啊，这个大家要结合自己的需求写啊，像这种多样本整合的时候，一般写combine或者写test啊。然后呢，我们画一画。这些变量都是外部指定的，我们啊运行的时候一定要把这变量指定好啊。诺曼定语啊。
75:03
这就是一步一步跑的一个难处啊，每步都会有问题。所以说在公司层面一般都把它封的好好的啊，把它变量设置好。让他这个自动跑就可以了啊，如果像像大家一样一行一行往这个非常烦啊。包的定义很好的。直接pass。哦，是P有问题。
76:08
这个时候呢，第一步画出来它的是一个，嗯。哎，画出来他的是这种。啊，就是它的。每个样本，这个样本WT和PT是什么？刚才大家指定的分组。指定的分组。哎，我指定好了WT和PT啊。然后呢，他第一个是分析的这个独一无二的一个，就是说，呃，当然克隆有多个啊，他把他这个。啊，就是独一无二的比例，占所有的比例的一个呃，值给绘制出来了，大家看最高也就不到50%吧，这是这都还这还属于基础分析的一个范畴啊。第二个。那看看第二个图。
77:11
有。第二幅图呢，也是基础分析的一个范畴啊。啊，这个时候体现的就是什么独一无二的克隆，它的一个整体的百分比啊，数量的一个差异啊。前面那个是百分比，这个是数量啊，这还属于基础分析的一个范畴。哎，我们接着往下啊。然后是计算风度了啊，计算风度了。3。
78:21
Abance就是风度啊，风度在分析的时候呢，我们主要体现它这个。哎，这个风度的变化。当然这里面大家要注意啊，大家要注意我这里面是样本整体的一个分布啊，大家在分析的时候可不敢这么干啊，一定要分好亚群啊，就是说不同样本的亚群那个多少的分布，比如说就是刚才在讲PP的时，PPT的时候提到的要根据哎，独有的群，比如说疾病独有的群，或者正常独有的群，它的一个分布，分布是这样啊。当然公司层面一般不会给大家定义到那么细，哎，分享群啊，还是大家自己要做的啊。
79:03
然后是克隆风度啊。这个地方为什么这个函数用不了，我看一下。可以。啊，克隆风度。这个就是折线图了啊，折线图看出它的一个风度的一个变化，其实其中大部分都是1啊。大部分都是阴啊，只有在patientent PT patient的一个那个patientent的时候，它会这个，呃，数量要多起来之后呢，它就会有达到这个有多个的现象，但是这个地方大家要注意啊，它这个风度的分布啊，还是依据这个。A at t这样一种，呃，硬核的这种物质，这种在分析的过程中是不可取的啊。还是那句话，同样的氨基酸其实是要，哎，是要有这个，同样的氨基酸其实是要有这个权重，权重的变化啊。
80:03
然后就是克隆长度了，这个就不演示了，就是长度的变化。看看有没有重要的。哎，比较坑，户型这个就有点。哎，这个就那个了啊，这个就是我们想要的一个结果了啊。哎，这个就是我们想要的结果了啊。这个都替换掉啊。这个地方没有替换。我们全部替换掉。没有这个变量啊。我们全部把它替换掉啊。
81:02
哪去了？比较克隆型，比较克隆型是我们关注的一个重点。哎，刚才换掉了换过。哎，比较合行。肯定没有。没有说明什么没有共享的啊，这个数据看来不是很合适啊，没有没有就是说没有共享啊，但是大家拿同一个样本，就是同类组织是可以的，我这个是随便找了一个数据啊，说明他没有共享的。然后是克隆空间稳态。啊，这个也是经常强调的一个内容啊。
82:18
哎，这个就是它的一个整体的一个分布了，大家可以看到稀有的。所有就是一条很少那种小的哎，中等的大的哎，等等等等，相对的风度啊，这个风度大家可以看看，只分为两类。啊，小的和me这个里面啊，它告诉了它的一个风度的一个变化啊，风度的一个变化就是说一个克隆在整样本整体的风度的一个。呃，比例是怎样的？哎，很稀有，就是说呃，占比很小，哎，或者说占这种占比等等，说明大部分啊。大部分还是一个隆或者两个克隆，这是正常的一个现象，因为这个克隆啊，前面提到了克隆存在多样性，多样性呢，很多个克隆可以针对一个抗原起到一个真正的效果。
83:02
说是一个克隆，其实它们的作用非常相似啊。然后是克隆比例啦，然后是哎，这个地方就是前面提到的一个什么。哎，这个地方就是前面提到的那个了。我屈服了啊。当然某地的展示形式有很多种啊，它这种采取了采取了这种变化性的展示形式。上。啊，有单链分析，有多链分析啊，一般分析常链。哎，这个地方就体现的是motif的一个相对的一个内容了，就和文章中的这个其实概念是一样的，这个地方如果是C，哎说明它的一个情况，这个C就很稳定啊，相对的多样性，多样性就没有，比如说这个地方是C，那就没有多样性，哎，都一样的，当然有的地方变化幅度很大，哎就成为这样一种，呃，就和这个PPT一样，这种地方。
84:04
变化很大，导致它的存在一个滑动性，但这个图啊，现在大家的真正分析的时候是要分亚群的，不能像我一样拿两个病人啊。笼统的分析其实起不到真正的一个效果啊。一定要分出亚军来，这个脚本的时候，大家一定要在前面分析单细胞的基础上进行一个详细的分析，然后是克隆的overlap。哎，Olap呢，这个啊，我这个样本应该是没有olap啊。然后就是多样性了，这就是基础的分析的一个内容，包括一些某T府分析，这个是大家所要分析的一个重点啊，其中呢，大家呃，还是要强调一点，就是在分析的时候，对它的分亚群那个分析是非常重要的，包括轨迹分析的联合啊。呃，课程上多次强调过，分析的时候啊多，信息来源越多越多啊，越准确越可靠。VDJ也是一样的，无论VDJ是随着时间的变化的一个克隆风，呃，克隆风度的一个负极，还是说它对针对特有的小群的某T的一个分析。
85:07
还是说它克隆共享，就是说它是不是来源于血液和组织来源是不是啊一样的啊，如果说血液来源和肿瘤内部的来源有一些一样的说明是，呃，血液进入到里面去了，对它进行一个克隆，TCR克隆的一个某替分析就能分析得到，哎，可以对肿瘤细胞起到作用的这个核心膜替夫序列。哎，这个当大家把VDZ分析分析到这个程度的时候，哎，基本上VDZ的分析，呃，分析就结束了。大家别看我讲了大概这么一个多小时，好像挺简单的，实际上在理解和分析难度上都非常的大。啊。这个回去大家好好看一看，尤其是各个软件之间的一个分析内容比较。还有这个。哎，他在分析的一个特点啊，重点的软件我都列给大家了啊，大家回去好好看一看，包括一些综述类的内容啊。
86:04
这里面再强调一下TCR的分析呢，包括哎，TCR的一个第一个。苯亚群，哎，就是转录组要分一个，就是独有的亚群或者占主导的亚群，第二个分析独有亚群的一个。哎，共享状态，看看它到底来源于哪，第三个分析它独有亚群的某替福序列，最好是能针对肿瘤细胞起到作用的某替福序列啊，第4个就是根据它的轨迹来看一看它的VDJ，哎，随着时间的，随着T细胞的发育怎样的，随着诶随着时间的发育，它的T细胞是如何的。怎么弹出个这。嗯，随着T细胞的发育，它的某T是如何的进行一个复极的啊，这都是大家单细胞层面的一个VDC分析的一个内容，当然了，再往下就是克隆改造了，克隆蛋白结构了，这个更难啊，更难就可能是临床上的应用了啊。
87:03
好了，大家有什么问题吗？

展开

我来说两句

0 条评论

登录后参与评论

作者

追风少年i

第六课：单细胞VDJ数据分析原创

我来说两句

作者

相关推荐

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐