00:03
好,时间差不多了,我们来上我们的第6课。哎,有关单细胞VDZ的一个分析啊。关于单细胞VDZ啊,哎,尤其是关于VDZ的一个分析啊,大家首先要了解一下它的一个行业背景。嗯,在这个医疗领域方向啊。大家应该听过这个卡替疗法。呃,就是依据抗原抗体结合的一样一个原理,对这个淋巴细胞呢进行改造,让它本身呢表达某种抗体,哎,结合定向结合那个肿瘤细胞的抗原,从而达到治疗癌症的目的。嗯,这个已经非常成熟了,已经现在已经推广,呃,在市面上使用了,这个非常的贵啊。但是呢,这个技术有一个很大的缺陷就在于它只能识别细胞表面的一个蛋白,哎,细胞表面的这个抗原。哎,对于细胞内部的抗原呢,它就无能为力了,那么细胞表面的抗原占所有细胞的蛋蛋白的多少呢?哎,不到10%啊,所以说咖啡疗法的运用还存在一定的局限性。
01:12
然后慢慢的呢,人们就发现了这个VDZ的这个序列的一个特征。从而提出了最新的这个TCT的疗法。因为我们体内的TC就是T细胞啊,它能识别细胞所有的蛋白,呃,无论是包哎,细胞表面还是包内的。这样的话,在VDJ序列上就有一个很大的应用,能够应用到治疗肿瘤和癌症。嗯,其中最大的问题呢,就是能够找到这个具有特异性序,这种特异性的序列,哎,能够识别VDZ的这样,呃,能够识别这个特异性抗原的这个VDZ序列。哎,成为当下研究的一个非常热的一个话题啊。呃,关于单细胞VDZ呢,大家应该都或多或少都了解过。其中呢,嗯,单细胞V粒,这涉及到5撇加TCR这样一种测序策略。
02:05
啊,大家一般做这个单细胞呢,默认都是3撇啊,其实5撇也可以,哎,它可以添加一些VDC序列,其中呢,尤其做肿瘤做血液等等等等,哎,一般他会做无添加VDG。那么VDC序列的一个分析啊,呃,其实难度比这个纯单细胞分析要高。啊,也是和昨天讲的一样的道理,就是说单细胞转录组它的分析教程,哎,很多很多,大家随便都能收到,但是VDJ的教程啊,大家可以。哎,不妨搜一搜,其实教程也少啊,真正核心的内容啊,也不多啊,也不多,我们真正的VDZ的一个分析的目的是什么呢?希望能找到一个或者一些序列,能真正的识别肿瘤细胞,并且起到免疫作用。哎,这是VDJ分析的一个最终的一个目的。啊。
03:01
首先呢,我们来看看VDZ的一个序列特征,大家可以看一下,这个特征呢,大家都看过,像BCR它是重链和轻链。啊,T3呢,是阿尔法链和贝塔链啊。其中有少部分是伽玛链和西格玛链,其中呢,它在这个地方。哎,是细胞,它结构和细胞的一个结合区啊。呃,然后呢是重链,哎,重链和这个细胞结合区是相连的,然后这个地方呢,哎,重链的上游两个端和轻链是互补的,其中呢,它识别抗原的位置啊,主要就是在这个,哎,比较这个头的部分。哎,CDR123对吧,这CDR123啊,都是高可变区啊,他们在识别抗原的时候都起到了非常重要的作用。正因为它高可变,呃,可变性非常大。所以它能识别各种各样的抗原。呃,在基因组上呢,它涉及到这个基因的重排,哎,重排成各种各样的链,嗯,包括TCR也是一样的道理,其中BCR还有一个比较明显的特点,它会存在一种。
04:08
存在一种什么呢?位点超突变的现象,就是一个点它会突变成其他的点,这样的话,它的多样性就会,哎,又会增加很多很多啊,其中呢,我们人体的免疫组会有多少呢?啊,非常多呀,是呃,几百万啊,反正这个库非常大,几十万几百万这种就是为了对抗各种各样的外来抗原,以及本身产生的这种异常细胞。这个呢,是简单的VDZ的一个CDR序列的一个特征,哎,其中微基因,Z基因,D基因。哎,下面是对这个VDJ序列啊进行一个简单的划分,其中F211234呢是相对恒定区。哎,CDR123呢,是一定的高可变区,大家可以看一看,当这个VDVDZ啊,它的分布是有一定的一个特点的。
05:08
这也是为什么单细胞测序会选择在CDR3的一个原因,这里面啊,从VDZ的一个交合区形成了这个CDR3。哎,导致了CDR3啊,它的变化是远高于CD1和2的,大家可以看到CD1和2仅覆盖这个危机。而CDCDR3呢,覆盖了VD这三个基因,它也是在识别抗原一个非常重要的一个部分。在很多的研究中啊,主要集中在研究这个CDR3的一个地方。接下来就是对,是一呃抗原识别的一个主要原因了,这里我列了几,列了主要的几条啊,第一个就是重组多样性,这个重组呢,指的是基因上的重组啊,还有高拷贝。呃,拷贝的话就是说各种各样的拷贝在T细胞里面都有大量的存储啊。简单的罗列了一下原因啊,在最初的培戏主因组中,VDC片段有多个拷贝啊,就是说在基因组上VDJ其实是,哎,前面讲过VD这会期间呃,会出现会出现这个基因重排的一个现象。
06:10
就是各种外显子进行重排啊,高考贝一直啊高考碑意味着选呃低选择压,就是说。高拷贝意味着哎,极高的突变率和这个多样性。这个尤其是在这个突变率和多样性的一个体现的一个情况下,在我们得到外源抗体或者体内细胞产生异变的时候啊。VDG就会特异性的腹极某些序列啊,从而达到治疗的目的,呃,比如大家呃经常感冒啊这种的也会引起我们的体液免疫。哎和细胞免疫,细胞免疫是T细胞哎,体验免疫是B细胞哎等等等等,正因为它的TCR的一个序列的一个作用,哎才导致我们在启动了这个免疫之后,可以把我们体内的异常的哎抗原啊,包括坏死的细胞都给清除掉。
07:04
然后就是序列的随机删除引入的多样性,哎,这个在有些序列的时候啊,它会特异性删除一个剪辑。所以说大家在做TC2分析的时候,公司的一个哎,公司的一个分析报告里面会给大家一个哎长度分布的多样性,这个长度分布哪来的,就是因为它在哎重排的时候,包括位点的时候啊,它会对它进行一些位点的呃,插入缺失,导致它的多样性也会大大的增加啊。然后就是超突变了,B细胞有这种超突变的现象,就是说对一个点哎,突变成其他的点,而且甚至还添加了其他,不比如说磷酸化,核苷酸化,呃简啊,反正各种各样的那种化学修饰,哎也包含在这里面,导致它的结构啊,呈现更多的一个哎,更多的一个多样性。啊,右边的这张图呢,就是我们人体正常的一个,哎,合成这个TCR序列和BCR序列的一个过程,首先呢,我们有各种各样的VDJ基因,对吧,在重排的时候啊,只会选择其中的一个。
08:07
哎,来重排嘛,那VDZ序列。啊,当然危机也很多了,这地基因,哎,这基因都非常多啊,他们在重排的时候,我会选择其中的一个进行一个,简单进行一个,呃,严格的重排。这样的话,因为组合的多样性会首先会形成它的一个序列的多样性。等到下游呢,就会有更多各样的,呃,就跟这里面介绍的一样,呃,涉及到查入,缺失,拷贝,突变等等,哎,它的一个免疫条,免疫主库啊,就更加庞大了。然后呢,形成我们的VDC序列之后呢,我们的正常人和健康人在。VDJ序列的一个,呃,选择上会略有不同,像我们正常人为了维持这个体内的平衡啊,会正常的表达一些VDJ序列。呃,清除我们体内日常出现的一些常见的抗原,包括坏死的细胞等等,但是如果我们的疾病,呃,疾病,我们得了一些疾病,比如说肿瘤。
09:04
它也会产生一些特异性的一个VDG序列,哎,这个序列呢,就会体现出它和病正常人之间VDZ序列重排上一个不同啊,这也是为什么单细胞可以分析VDG的一个原因。VDZ啊,还有一个简单的概念,和昨天的那个a tag的概念差不多,就是这个motif啊。嗯,因为它那个VDZ啊,TCR, 尤其是TCR在识别这个肿瘤细胞的时候,并不是说特定的序列只能识别特定的细胞,而是一堆系列一堆序列,哎,都可以识别这个肿瘤细胞,比如像这样的。啊,一堆序列都可以,这个地方是C也可以。哎,这个地方是C,说明这个地方只能是C啊,F只能是F,但是在其他地方。哎,就有一定的可变性了,直接可变性啊,当然会出,呃,体现出一定的频率,比如说这个A频率最高,S频率是第二的,但是这些序列组合呀,都可以识别这个肿瘤细胞。
10:07
啊,正是因为存在这种多对一的现象啊,就是多个序列能对应一个抗原的一个现象。呃,所以我们的TCR在这个广泛性上还是有得到了普遍的适用。啊,但是多序列就带来一个另外一个问题,哎,什么问题呢,亲和力下亲和力低。前面讲到了行业背景的里面说话,卡T疗法是抗原抗体,抗原抗体的结合力啊是非常的强的,但是TCR和抗原的结合就非常的弱了,相对于抗原抗体它们的结合啊就非常的差。所以说在这个呃,研究过程中呢,如果找到了,可能对这个抗原有哎,有效果,有识别作用的TCR后面还会。经常还会做一下这个基因工程改造,把它的位点突变一下,增强它的亲和力啊,这个在这个酵母发酵啊等等方面已经得到了很大的应用啊,不过在人体上还是呃存在一个摸索的阶段啊。
11:06
哎,这是一个简单的一个序列了,哎,包括我们的CDR123,它的整体的长度啊,并不是很长啊,并不是很长,呃,其中呢,CDR3。哎,是我们最重要的一个部分,也是这个研究中更为关键的一个部分,它体现了哎,VD这三个基因的一个序列,这个序列它的碱基的一个排布,哎就像这样上面这个这个图一样,它的一个排布啊,就会体现出哎,它是不是一个哎核心的motif,或者说它这个motif集,哎,我们对他这个某if集分析,分析得到这样一个。积蓄的话,是不是可以起到对抗原的识别作用?这就是TCR呃识别呃分析的一个核心啊,不过这个,不过这种分析啊,目前还比较的。呃,难度还比较高啊,而且在前期做选择的时候。嗯,也非常的难啊。右边是一样的啊。
12:03
大家可以看看这个,我简单罗列了两种T细胞,它在这个T呃,Mot序列上的一个差异,包括t rag和t con啊。T rag的调节性T细胞,哎,T t con是保守性T细胞,他们在这个motive的啊,Motive的排布上就会有明显的不同,因为在不同的T细胞里面,它要行使不同的一个生物学功能,所以他们的TCR在抗原识别哎或者说成立抗原的过程中啊,他们要体哎体现出它不同的一个序列,才能实现它的一个功能。这个呢也是分析的核心啊,大家在分析T细胞亚群的时候,当然现在可能做3撇是没有这个信息的。做五撇的时候,哎,一定要体现出这个,哎,某替夫序列。尤其是大家分类亚群,比如说这个T湾和TXX,尤其是正常的疾病的TXX,它在某T上的一个差异,哎,就是我们寻找的一个,呃,治病是不是说能够治疗它的一个TCR的一个契机啊。
13:01
这是目前很多研究者他牛在干的这个事儿啊。然后呢,就是一些VDZ在这个,呃,VD在我们人体中的一个简单的一个排布了,哎,其中呢,呃,前人啊在研究这个新冠的时候,哎,收集了大量的这个。收集了大量的这个,哎,人体的这个TCR,呃,TCR数据,希望能从这个TCR数据中啊。找到能够识别抗这个新冠抗原的一个序列。哎,这就是它测序得到这个序列,大家可以看一下序列,哎,很相似,但有一些地方不一样,这就是积蓄带来的这个序列的多样性,其中呢,有一些可以识别这个抗原,有一些而不识别。哎,能够识别的抗原呢,进一步分析它的motif序列。哎,确定好某提夫之后呢,就可以转向这种,哎,无论是药物研究啊,还是临床应用啊等等,哎,就会拿到一个非常这个所谓的TCRT治疗的一个效果啊。
14:04
但其中有一个有一个这个概念就是TCRD的这个乐,直译过来就是TCR距离的慢径。这个半径什么概念呢?其合就是motif是一个一个样啊,一个意思,哎,大家都知道这个我们的这个氨基酸啊。呃,20种氨基酸其实分了好几类。包括碱性氨基酸、酸性氨基酸,哎,芳香烃氨基酸等等好几类。呃,同一类里面的氨基酸的相互替换啊,它的效果应该是不会差太多的,比如都是芳香烃,哎,它们相互替换是差不多的,所以说在某个位点。哎,某个位点它的一个呃,芳香定氨基酸变成另外一个方向的氨基酸,它的效果应该是哎,差别不大的。这个里面啊,就会体现出一个TCR距离的一个问题,就是说同类TCR序列,哎,它的相互替换呢,它的距离是比较短的,也就是说它行驶着同样的功能,只不过在亲和力上稍有不同,它们的TCR的相互距离呢就比较近。
15:05
但是如果说不同组的氨基酸进行替换,比如说碱性氨基酸,呃的位置换成了酸性氨基酸,那它整体的功能就会发生变化,这个时候呢,它们的距离均面拉远,通过一定的算法把它们给区分出来,哎,这个就是TCR。的一个概念啊。哎,所以在分析过程中啊,其实简单的序列分析,或者简单的氨基酸序列分析。嗯,还是无法达到我们真正想要的那种能够添加生物学意义的一个效果。啊,比如说机器A就是A。是吧?T就是T,它只能识别这个字母的不同,但是在这个氨基酸和这个序列分析上,A和T如果同属于同一组氨基酸,比如说都是。碱性氨基酸,哎,他们应该是相似的,应该给一个标签,哎,它们是相似的,这个就需要人为来进行判断了,包括人为做实验,包括人为的计算科学等等,简单的序列分析,其实还达不到这样一个效果啊。
16:08
然后呢,我们的T细胞啊,在我们体内大致分为两类,哎,像这个这种伽马西格玛T细胞,哎,固有免疫就是正常的存在我们的组织细胞里面。它的TCT啊,是这两个链组成。呃,但是呢,我们正常的也所说的T细胞啊,都是这个阿尔法贝塔这种T细胞。他在我们的血液里面占了95%,绝大部分都是这样的啊。然后它主要吃进我们的体,呃,细胞免细胞免疫。哎呀,无论在体内正常细胞,哎呀,损伤的细胞间接清除还是外源抗炎的一个。呃,识别并清除等等等等,都指的是我们阿尔法贝塔类的T细胞,但是大家在测序的时候经常还是会拿到这个这种伽马西格玛这种T细胞的,哎,这种序列呢,是固有免疫,哎,一般在分析中它不是重点。哎,但是有一些人呢,为了研究这个固有免疫,比如说固有免疫,它也会起一定的免疫作用。
17:03
呃,也会对它的序列进行一个简单的分析判断啊。T细胞识别抗原TC2,就是说亲和力低啊,亲和力低比抗原抗体亲和力要低啊,就是说就跟大家抓娃娃一样。能不能抓到呢?能只可能是10次才能抓到一次,或者100次才能抓到一次,呃,TCR也大,差不多是这个概念,就是说我们维持了这个庞大的免疫主库。啊,有一有一堆啊,比如说有100个TCR序列,可以抓到这个网,可以抓到这个抗原。啊,但是抓到这个抗也很容易掉。哎,所以说就要维持多次,就是数量多一点,比如说克隆啊,100个1000个,呃,一起抓它总有一次能抓到,这是一种弱结合力。哎呀,人体为人体,为什么要用这种弱结合力的方式呢?就是为了维持我们的免疫平衡。如果是那种强结合力。
18:01
哎,稍有不同,立马抓掉,把它消灭掉,哎,这说明免疫力太强了。啊,免疫力太强,对我们人体是有害的。明白吧,这是我们人体进化的一个结果啊,但是抗原抗体它确实是一种非常强的结合力啊,你抓到就掉不了了。啊,就和大家做那个TCR啊,反正现在也有一些这个测序技术吧,就依据抗原抗体这样一个方式把一抓到,呃,无论后面的测序啊什么的,包括各种实验啊,震荡啊等等,都不会干扰它的一个结合的一个。结合的一个情况啊,但是TC2不可以啊,这是一种呃,免疫性的一种考量啊。哎,然后这是结构了,蛋白结构,哎蛋白结构呢,大家可能对这个,哎对施工比较了解吧,它就是做专门做蛋白结构的,这也是现在TCR研究的一个关键的一个地方。就是前面我们筛选了这个TCR序列之后啊,我们第一步要看它的蛋白结构,哎,这个时候要涉及到冷冻电镜的一个效果了,对吧,看它的蛋白结构等等等等冷冻电镜啊,乱七八糟的,哎,看到这些结构之后呢,进行基因工程改造。
19:07
基因工程改造之后呢,计算它的氨基酸的一个权重,哎,就是其他亲和力到底有没有改,有没有提高,有没有降低等等,这个呢,在蛋白蛋白质结构组,结构学生物那个叫什么结构生物学上啊,非常的重要啊,大家将来可能有的人会从事那个结构生物学的计算,它也是生性的一部分,一个分支啊,也非常重要啊。通过计算机模拟呢,看看突变哪个氨基酸会增强它的亲和力,哎,把它这个计算一下,得到的亲和力啊,可能会得到很多的很多的序列,然后大把大把的序列对它的结构进行研究之后呢,筛选出哎,大家想要的这个序列。就可以了啊,这是从蛋白结构的角度来看这个TC的结构啊。呃,然后呢,TCRBC的分析软件呢,这个已经非常多了啊,哎呀,他这么超过,哎呀v DJ tos驱动公司啊,主要给大家的结果就是这个v DJ tos的结果啊。
20:13
还有一些这个,呃,Deadline.埃德line呢是主要分析B细胞的。呃,它也可以分析T细胞,它为什么主要分析B细胞呢?就是前面提到了B细胞有一个超突变的现象。哎,这里要有专门的软件可以识别这种超突变的一个情况,从而达到分析它多样性的一个目的。哎,这个文章我都列在这儿了啊,大家有空可以看一看,包括这个文,包括这个啊,也是公司常用的一个VBC分析方法。哎,还有这个K啊K啊,其中啊这个deadline。大家可以看到发的文章是。哎,这个房子就非常高了,很值得大家借鉴啊,还有这个conga。
21:00
它也是非常好的一个方法在识别,呃,这个固定细胞的这个motif方面,哎,也是非常好的啊,文章也发在这儿了,他也发了很高的文章啊,就是说大家看方法。哎,可以看看这些高分的方法,而且大家不知道有没有发现啊,现在发的这些高分的方法基本上都是Python版本的。很少有R版本了啊。包括前面为ADA attack提到的那个smack,呃,Snack a attack最近才发的文章都是Python版本,并且发到了这个ni be来,呃,NB啊。哎呀,这是软件的一个总结啊。大家可以看一下,包括什么track呀,什么乱七八糟的,反正很多。哎,很多。呃。Python居多,哎,因为Python在这个序列识别上是优于R的,R在数据处理上是优于Python r可以处理一二三,但是在R在处理这个生物学的时候,比如说处理at cg的不同的时候,那个就,哎,差强人意了,就得用Python来识别了,这种序列结构,包括这个。
22:07
ATCD, 它的序列排布啊,包括motive的一个分布啊等等等等,这个我们就需要借助Python的力量来实现它了啊,这也是为什么VPZ啊,哎,分析的比较少的原因,包括公司都不怎么主推他啊,确实分析难,一方面分析难度比较大。另一方面啊,确实再结合这个。生物学意义上啊,哎呀,解释起来是非常难的啊。哎呀,其中重点点几个软件,就是这几个软件,哎,我认为比较重要的,哎,都给大家列起来了啊,列在这儿了。呃,其中呢,我如果大家分析BCR,我推荐用这个deadline啊,如果是TCR,哎,推荐用conga,但是公司呢,一般用v d z tos啊,但是在这个市面上,大家如果找一些合作项目,哎,找一些人合作什么的。这个ISH曲目这个呃,用的更多一点。
23:02
这些软件啊,没有说哪个好哪个坏,它只是各有所长啊,他们在分析上各有所长,包括这个。它的一个分析的一个特异性,哎呀,指标表里面都给打勾了,比如说像这个deadlines,它可以分析BCRTCR,但是在con格重建上它就无能为力了,抗T格重建是什么意思呢?就是大家分析的TCRBCR序列必须要进行一个。呃,和免疫主库进行一个比对,把它的一个短的序列片段拼接起来,看看它到底是哪种VDC组合。而他没有这种能力,嗯。哎,有重新注释的能力,但是大家在拿到这个实成的结果的时候啊,他已经注释好了,已经拿到这个文件了,告诉你是哪几个基因了,基因是什么都已经告诉了啊。啊,但是如果说你觉得实成的布置想要重新入市,它是可以实现啊。包括指控啊,可视化呀,聚类啊,TCR和BCR也是需要聚类的啊,TCR和BCR的聚类和呃转录组的聚类不一样,转录组的聚类呢,是依据这个基因表达,哎,大家表达的相似,哎,就算聚类了,但是在TCR和BCR的聚类情况下,是不是这样的?TCR和BC的聚类主要是参考序列的相似性。
24:17
这种相似性我考虑到多个方面。不仅仅是这个,呃,不能仅仅是A和T,它俩不一样,只能是A和A,和前面讲到的一样,如果是同性氨基酸,哎,它们就是属于相似的范畴了,明白吧,都是碱性,它们就相似,都是酸性,哎,也算相似。不能简单的判断A和T,哎,它俩也一不一样啊,所以说在这个聚类方向上,诶,各个软件都有它,哎,独特的一套算法,把这个氨基酸进行了一个分类。在计算某替负上,这个是非常重要的啊。还有一些,嗯,其他的一些分析啊。包括多组些integration啊integration,呃,还是那句话,大家在这个TCR序列的分析的过程中啊,很多时候TCR要和这个单细胞转录组进行一个结合。
25:07
就是说我们分析这个TCR序列,要回到它TCR表达的情况上来看一看,这个时候呢,有些软件就会结合两者信息进行一个联合分析啊。其中啊,如果用TCR。哎呀,分析这个和他转录组和联合的分析的时候啊,推荐这个。石油NG啊,这个之前也都写过文章推荐过啊,他本身也发了很高的一个很高的一个文章啊。然后还有一些诶和单细胞工具的interaction,就是相互之间的一个。呃,兼容性包括这个软件都是可以的啊,这个表呢,大家自己保留一下,万一将来大家有了T12B2序列,要针对不同的一个信息啊进行一个。呃,进行一个,哎,合适的选择啊。啊,公司的话就是VD的套S啊,这种师生自带的问题给大家分析一下啊,但是如果大家想发好的文章,拿到好的结果,还是要自己多研究研究啊。
26:04
然后呢,这就是分析框架了,哎,拿到这个单细胞序列,经过这个测序之后呢,拿到这个VDC,你看都是短的片段,首先第一步要进行一个基因组装,来组装成完整的一个序列。主张出完整的序列之后呢?然后进行比对,比对之后呢,就会告诉你,哎,它是TCR是哪几个基因组成的了,是V是哪个基因,D是哪个基因,这是哪个基因等等等等,如果就呃10层呃,自动就干了这个事儿了。就告诉大家是哪个序列了,但是如果说大家觉得不合适,哎,又要进行一个借助其他的软件进行重新注释啊,重新注释之后呢,又会拿到真实的这个抗康,就是拼接好的序列,哎,就是VDZG什么基因都告诉大家了啊。这个AIR是我们人体免疫主库的一个书写啊,就是我们人体免疫主库到底有哪些,这是一个数据库啊,我们呃时常提供了,大家可以下载一下,通过这样的一个拼接好的序列和数据库的一个比对,哎,就知道我们是哪些VD的重排了。
27:04
然后呢,拿到这个VD的重排信息呢,这边有一个基因表达的一个信息,哎,一般也是10成的啊,10成拿到之后用SHV5或者V4吧,或者Python版本的SC,经过一通分析之后。拿到细胞,呃,细胞水平的一个基础信息,包括它的一个注释结果,包括它的一个。聚类结果等等等等,哎,这个时候呢,通常会在VBZ和表达矩阵的,哎,两者之两者结合的前提下进行联合分析啊。一方面拿到这个。表达信息,另一方面也拿到它VD这序列信息,哎,经过无论是各种各样的软件吧,哪个软件的优劣势大家要自己学习,包括带的lines啊,包括CPA啊等来分析它不同细胞类群之间motif motif就是TCR序列的一个。呃,负极的程度,包括结合的一个差异性。这里面啊,有两点大家一定要注意,第1点,TCR或者BCR只在免疫细胞序列中存在,也就是说在分群的时候,哎,着重关注于免疫细胞。
28:11
组织细胞不含有这个。当然了,如果是在空间上,组织细胞也要关注的,就是说这些PCR序列或者PCR序列。它在空间上所占的这个位置,是大家所要关注的一个重点。第二个呢,就是对TCR的一个分类的一个效果啊。我们都知道我们的TCR和B,呃,BCR就是T细胞和B细胞,它在正常细胞和啊,正常组织和这个肿瘤组织里面啊,分布是有差异的。比如说T细胞,哎,我们分亚群分了5类对吧。其中有一类是这个疾病独有的,或者说是疾病占主导的,那它TC所复及到的某T府,很可能就是对这个疾病产生这个治疗效果的这个序列。这就是我们所要分析的一个重点啊。
29:06
哎,接下来呢,就是一些下游分析了,包括这个基础的指控啊,包括它TCR的一个,哎,空间啊,U外图的一个分布啊。包括它和这个转录数据结合形成的这样一种。哎呀,包括还有什么染色体可行性啊等等,其实这是多主学的一个方向啊,多主学一个方向大家可能嗯也都慢慢感觉到了,其实我们现在的分析都是多信息来源了,单一信息来源其实越来越受到大家的质疑啊。当我们结合多信息来源的时候,哎呀,他们的它的这个分析结果啊,准确度就相当高了啊,然后呀,TCRBCR多组学的neighborhood,这个neighborhood就是刚才提到的一个聚类的相似句啊。拿到这样一个结果之后呢,就可以得到,哎,我们整体的T3它的一个分布。最终,哎,最终的最终拿到具有特异性的这个某替夫序列。这是我们最终的目的啊,各种各样的软件吧,是吧。
30:03
呃,这个里面还是要再强调一下,刚才所说的啊,就是说转录组在分析的时候大家分好了T,呃,T细胞亚群或者B细胞亚群。有些群呢,是疾病所独有,有些群呢,是这个共有,共有的序列的某体服其实并不是我们关注的重点,而更应该关注那种差异性的。比如说T细胞分了5个群,对吧,有一个群是疾病占主导的,也就是说疾病类才会独有出现了这个TC小群。哎,如果大家有TCR序列,一定要把这个TCR小群的一个。呃,序列啊,进行一个某替分析,看看它的一个分析诶是怎样的,它的一个积蓄是怎样的,这就是大家分析从单细胞能够分析到的一个最终序列了。至于下游啊,下游就是另一个方向啊,包括这个序列它的亲和力有多高,是否真正能结合到抗原,这个要实验验证,包括在生物结构生物学上的一个补充啊。
31:04
空间上非免疫细胞也要关注,因为它T细胞它在特异的序列啊,它是要消灭这个坏死的细胞的,所以说呢,T细胞它会在空间上有一定的排布规律,比如说它如果真的能起到抗肿瘤效果。哎,它会深入到肿瘤内部,在这个这个在这个组织学上叫免疫进入。啊,如果他这个TCR序列没有起到效果,那它就进不去,哎,就会形成那种耗竭T细胞,肿瘤内部就没有免疫细胞的存在啊,这个在空间上是要把这个能够浸润肿瘤组织的T细胞,哎单独抽出来。分析他的母T序列的,看看它是否真的可以拿到这个针对肿瘤细胞的一个TCR序列进行一个分析啊。空间对于这个免疫治疗非常的关键啊,非常的关键,你别看我们单细胞分析了一大堆对吧,分析了一大堆,最后发现诶疾病特有的小群,看到他这个某提夫序列,然后下面又做,下面要做实验验证,对吧,这个过程其实是非常粗糙的啊,比如说这个群。
32:10
疾病有。但是他这个群是否真正能浸润到组织细胞呢?不知道。大家都知道TC是这种细胞免疫的,它必须和细胞表面结合,把它消灭掉,对吧,它和细胞是存在一种啊,如果能起效果的话,是存在一种共定位关系的。啊,但是T细胞看不出来了,把它给解离了是吧,这个时候呢就不知道了,这个时候只能借助空间的力量来做它。嗯。好了,这就是简单的一个分析框架啊,提到了这些包括啊。啊,当然TCR和BCR自己也可以单独分析啊,这些软件都可以单独分析啊,包括什么QOC啊,指控啊,结合转录组啊,拿到这个虚拟文件啊等等等等,这个都基本上前面都讲了一堆,讲了一轮了啊。还有一些多模态分析啊,多模态分析其实呢,就是说多组学,比如说蛋白质和这个RNA,再结合VDC啊。
33:06
嗯,其实大家应该感受到了,我们的序列分析啊,其实还是相对简单的啊。真正难的是蛋白结构分析和这个,呃,基因工程改造,把它改造的更具亲和力,下游的分析更加重要,但是难度也更高啊,可能要涉及到冷冻,电竞以及这个。啊,以及这个基因工程改造,包括这个,呃,有一个专门的学科叫生物物理,哎,就是物理结构这种方向啊,也是非常重要的啊。所以说大家将来要学习这个生,要在生物行业有所建树的话啊,其实这个就是说跨学科是大家的必经之路啊,无论跨哪个都可以,生物物理,生物化学。啊,生物信息等等都可以,包括生物材料都算是很好的一个方向啊,但是纯学生物其实是没有多大的价值的,包括大家知道了TCR序列的差异。如何把它应用起来才是关键啊。
34:03
啊,然后呢,这个也是简单的一个处理啊,这是一些文章分析的一个思路框架,哎,S润子也告诉我们了,这个S也就只能告诉我们这个了啊。VDZ的还一个负极的一个程度,包括它的一个多样性啊,然后呢。后面呢,我们要根据这个多样性来判断,这个时候就体现空间的作用了啊。B细胞在发育成成熟的B细胞之后呢,哎,它有一个聚集效应,就是说它会优先的。呃,分布啊,把这个周围的细胞优先给它改造成这个像这个能够起效果的一个B细胞啊,把它的序列经过一个改造,改造之后呢,哎。就会形成特有的B细胞了,当然这个b memory说明它已经那个了啊呃,体液免疫结束了啊,然后呢,有一些网络分析,就是我们前面提到的一个序列分析,根据结构相似性把它聚成一类。然后还有重链轻链等等啊。
35:00
TCR呢,就比B细胞更加复杂了,大家都知道BCR是分泌抗体的。啊,但是BC啊,但这个TCR必须结合细胞表面来进行一个抗原识别,把它给干掉,这个时候呢,聚类啊等等RNA的分析就非常重要了啊,如果仅有单细胞数据,就要必须分析出疾病特有的TCR的一个小群,或者说如果群都差不多,和正常的T细胞群没有任何差异。呃,那说明可能啊,可能大概率免疫逃逸了,没有起作用。如果说有独有的小群,就是免疫这个疾病,有独有的小群,说明我们体内还是有一些T细胞能够识别并消灭它的啊。这是我们研究的重点啊,但这个地方由于这个亲和力的关系啊,可能很多时候分析上还存在一定的疑惑,因为亲和力低嘛,所以说在分析上哎,可能会出现一些假阳性的结果,所以在TC和BCR上很多时候还是要补实验数据的。
36:01
然后呢,就是文章中常用的一些套路了,啊套路了,第一个就是轨迹加VDJ序列。什么叫轨迹呢?就是单细胞大,大家分析的那个什么,你时序分析啊,你时序分析他现分析了,你时序分析很多时候啊,都是告诉他,哎呀,它的一个结构变化对吧。结构变化,呃,就是基因的转变等等等等,但是在TCR的世界里,如果如果我们分析这个T细胞的轨迹,如果我们分析T细胞的轨迹,哎,很多文章会把这个TCR的序列的负极程度,负极的变化在轨迹上的一个体,呃,以会在轨迹上进行一个体现。就跟大家分析那个恶性上皮细胞一样。仅仅分析这个。哎,仅仅分析这个,呃,基因的转变其实还是不够的啊,有的人会把这个CNV的一个分数给他附上去。哎,告诉他是因为他在恶性向恶性程度转变,或者是呢,或者说像良性程度的转变,哎等等等等,这是这也是多信息来源的一种分析分析补充啊。
37:11
这就是我们前面的一个呃主体思路了,接下来是一些软件的一个分析内容啊,包括一些配对啊,大家都知道为是重量轻点配对等等,这个配对啊,其实是每个软件的基础分析,告诉你配对的一个情况啊,包括它负极的一个程度,比如说我们在正常和疾病进行比较之后呢,发现这个链。占据了大多数,呃,说明细胞啊,说明我们的体内啊,在疾病的状态下,哎,特异性负极了这个基因的一个序列。呃,至于第二条链,如果种类比较多,就体现了它的一个多样性,哎,Motif多样性,进行一个呃,Motif的一个分析,看看它的序列是怎样一个状态。第二个呢,就是长度的一个分布,哎,变化的一个片段就是长度。嗯,这个长度分布啊,就和刚才提到的哎,TC啊,经常会有这种插入缺失啊,啊包括这种超突变的现象,所以它长度分布也是这个。
38:04
哎,很有有很大有很大的一个差异的。但是这种差异啊,不是我们关注的重点啊,我们更加关注是哪个具体的训练能够识别,但是这个图啊,作为一种这个基础分析的内容还是非常好,哪个软件会自带啊。然后就是VD在重叠了,VD在重叠了,其实就是说。比如说我们正常和疾病,哎,它哪些微粒,这具有重叠效果。这个会,这个在张泽明的文章里面,大家看那个张泽明他研究这个免疫的细胞的文章的时候,经常会在这个肿瘤研究中,把血液的VDZ和肿瘤细胞能够进入的VDZ进行一个哎,重叠分析。以此来判断肿瘤内的呃免疫T细胞是不是来源于血液,是不是来源于血液啊?他们的共有分析呢,就是体现它的一个危机的序列的来源。正常的组织内的驻留细胞,驻留T细胞是很难起到这个杀灭肿瘤的效果的。一旦我们得了肿瘤之后呢,细胞引起这个各种各样的反应,首先从体液调度了各种各样的这个免疫细胞,包括T细胞,包括B细胞,嗯,因为我们B细胞T细胞主要来源于胸腺和骨髓嘛。
39:12
这样的话来到这个,哎,通过这个血液循环来到我们的这个肿瘤组织的一个周边能够浸润,哎,当然是最好说明它真正能够识别,哎,肿瘤细胞能够进去能够识别它,但是能不能起到效果就是另一说了啊,首先能识别是肯定的啊。然后通过这样一种共有序列的一个分析呢,看看它的一个哎来源。接下来呢,就是一些更多的一个分析了啊,这都是文献常见的一个地方,问定是差异常见的地方。第一个呢,就是聚类,依据这个序列多样性进行一个聚类啊。剧烈还是那样的,哎,同性氨基酸,同性氨基酸是具有相似的一个距离的啊。
40:01
然后呢,就是某if分析,某if分析呢,别看这里面放了这个这么多的某if分析,但是呢,前面的处理过程非常重要,就跟我刚才提到的一样。哎,T细胞你不能样本整体比较,那个是没有意义的啊。一定要分析出疾病独有的T细胞小群或者B细胞小群。啊,甚至空间上如果是空间序列的话,一定要能把这种能够浸润的T细胞给它专门的诶抽出来分析它的一个序列,这才是具有最具有生物价值啊,右边这张图呢,也是一个简单的一个处理分析了,哎,包括我们的输入输出等等,对TCR进行一个聚类。包括TR的分布等等啊,这都是一些简单的内容啊,大家要。掌握这个思路的一个分析。这个呢是多组学的分析啊,基因的分析要结合这个转录组的分析,就是这个软件CNG比较推荐的啊,就是说如果大家做多曲学联合的时候,这个软件是非常推荐的啊。
41:04
基本上也是在基因表达的一个基因表达的一个层面,结合这个TCRBCR的一个层面,两者进行一个结合,哎,分析它的整体的一个转入相似性,以及T+R的一个相似性。拿到我们想要的结果啊,这个想要的结果当然就是针对疾病哎,具有特异性的TCR序列。嗯,这就实都是一些文献应用了啊,前面基本上都讲了,第一个是共享啊,看看它的一个来源,第二个就是某if,哎,具体的T细胞某if都有什么,第三个就是VDJ轨迹,哎,随着轨迹变化,它的VDZ的负极的一个情况啊,这些大家都要在自己的研究中,哎。自己的项目中运用起来啊。啊,然后就是一些简单的应用啊,其中如果说大家对TCR序列不敏感的话,其实这个TCR结合轨迹分析啊,是目前最常见的啊,是目前最常见的运用的比较多的啊。
42:16
但运用的比较多的这个,哎,这个反正大家如果要做到这个很容易实现的啊。然后就是免疫细胞和肿瘤反应性了,就是前面提到的啊,我们更希望知道,哎。确定T细胞中TCR序列和肿瘤反应性的一个关系啊,就是说真正的能实现我们的TCR序列,能够能够真正识别我们的肿瘤细胞,从而达到。哎,治疗的效果,为下游分析做一个充分的准备啊。这就是TCR的一个简单分析的一个内容了啊。大家休息5分钟吧,休息5分钟,我们来看看代码部分啊。休息5分钟。
43:12
微粒G变化分析,讲清楚一个结果,讲清楚什么结果。这个轨迹分析啊,它主要是为了体现VZVDZ在轨迹发育的过程中啊,它的TC,它的TCR序列负极的一个情况啊,就是一开始是怎样的序列,等真正到达它那个分化末端,哎,它到底是一种怎样的序列的一个变化啊,这个是它的一个最终的目的,因为大家都知道我们在疾病的过程中啊,呃,疾病的风呃过程中呢。呃,细胞一开始,哎,我们体内有一些体未必这序列,但是真正达到T细胞的时候呢,真正到了肿瘤免疫的时候啊,其实细胞已经,呃,T细胞已经经历了各种各样的一个变化。哎,这个地这个地方呢,就会涉及到它的一个呃,分化转变,分化转变的时候呢,就要体现出哎,T细胞在整个分化转变中,它为了能够识别这个抗原,哎识别这个肿瘤细胞,它到底经历了怎样的一个VD这重排。
44:12
经历了怎样的一个复极的一个过程啊,这是T细胞轨迹啊,T细胞轨迹联合VDC序列的一个核心意义啊,其实还是为了找到能够识别T细胞的,呃,识别抗原的一个T细胞的一个序列啊。当然前提是大家的单细胞数据有真正能够识别抗原的微粒质序列啊,没有的话做轨迹分化也是,很多时候就会分化到那种耗竭性体细胞了,那个就完全没有用了啊。外阳那边是NC吧。应该是啊,大家可以看看啊,休息5分钟啊。
50:05
啊,大家有什么问题可以在群里提问啊。关于PCR分析,其实它的分析难度是比单细胞哎,转录组要高的啊,它因为它涉及到这个序列的分析了。这个就不是简单的12345能所能替代的了啊,而且20种氨基酸,它在相互排布上会产生各种各样的啊,非常庞大的一个组合啊。大家拿到的这个实成结果啊,类似于这样的。啊,类似于这样的。8扣的。哎是不是个细胞,哎抗这个哎抗定ID是不是高的confidence,就是说他在分析的时候是不是哎更可可信,哎长度啊,哪个链啊VD这基因是什么呀?合定基因是什么呀?全长是序列是什么呀。嗯,然后productive就是说它的产生的一个序列啊,等等等等啊,包括它的。
51:00
氨基酸序列和核苷酸序列啊,各种各样的序列,反正啊。大家可以看到它并不是一个简单的一个矩阵啊,更多的是一个什么呢。基因。序列。哎,如何从基因序列上提取有效信息,也是大家将来要学的一个。哎,非常核心的一个内容啊。嗯。啊。来,我们来装一下啊。这个版本呢。这个这个分析的软件这个版本啊。哎,必须是2.0版本啊,就这个软件必须是2.0版本啊,它更新了1.0版本,现在已经落后于这个呃分析的时代了啊,它更新了一些很多的内容。
52:11
嗯,包括一些其他的,我们来看一下啊。嗯。其中啊,我们需要关注的一些分析,大家基本分析都都有,包括多样性啊呃,序列啊,包括这个长呃number啊。呃,密度啊,等等等等都有,但是我们这个不是我们所关心的。呃,我们要更多的是要拿到他的这样一个结果。某T序列分析的结果啊。不在这儿。
53:00
哎,这个里面就是刚才提到的常见的所有分析基本都有啊,基础的克隆分析就是多样性啊,长度片段分布,第二个是可视化,第三个要总,呃,Summary summ RAS就是它对哎前面技术分析的一个总结,最重要的是要体现克隆多样性啊,稀有的fraction啊,就是稀有的T3序列,它的一个比率。包括它的overlap,还有这个聚类了。哎,依据距离来积累,这个就是我们重点分析的一个内容啊。然后接下来呢,它还有一些结合单细胞的一些信息啊,包括这个精因塞的腹集啊,这些内容啊,大家一定要好好看看啊,好好看看。嗯,他会对TC进行聚类啊,这也是我们想要的一个分析结果。我们更新一下这个软件啊。更新到2.0。
54:09
11、什么?停。这个软这什么啊,这是流程图啊,流程当然都是AI做。软件不做啊,他只是告诉大家分析思路啊。GT.
55:37
这个图大家应该见过吧?哎,叠加序列相似图啊,这种图呢,在文章中也很常见。哎,哪个T加相似,包括它的风度有多高等等,把它体现出来啊,大家在做T3R负极的时候啊,其实抓住一个核心就可以。稀有细胞类型的某分析啊,这是它的一个核心思想。
56:05
啊,当然了,有两个方向啊,一个是NT。就是核苷酸,一个是。A就是氨基酸。哪个序列更重要呢?当然氨基酸更重要啊。这个根据大家的需求要判断,一般都是分析氨基酸啊。包括一些安全的序列,它的一个负极啊等等等等。相当麻烦。装这个。我们升级一下啊,升级一下。
57:20
那包一更新啊,很多时候只更新到DVS。大家知道包有分类,分为三种,一种是这个DV tos, 说明这个包是明这个软件还在于测试的阶段啊,并不是很稳定,第二种是bio manager这种方式。这种方式呢,是相对稳定,但还不是那么稳定啊,说明还是有一些改动,等大家等真正的可以做到完整的应用的时候,就是。哎,这种这种这种方式。这种方式了,Install package.就这种方式,哎,这种方式装的包呢,就是它稳定性最好。
58:04
这个1.0版本啊,它有一个问题在于它这个函数啊,很多都没有,比如说这个函数啊。我们把包夹在上看一下。它这个函数没有,这个函数是用来识别什么呢?识别这个。第一张图,克隆多样性。他没有这个1.0版本是没有的啊。哎,这个包怎么装这么费劲?
59:24
那个网很有问题啊。
60:02
这个包装不上啊。哎呀,之前装包装怎么装的是1.0版本应该装2.0啊。做一下这个包子装吧。
61:31
啊,这些依赖真的是烦啊。
62:20
啊,这个也装不上。啊,有些包就是很难装啊,装起来特别费劲啊。
63:15
康纳装也很慢啊,康德装也很慢啊。没有办法。稍等一下啊,我们来装一下。大家装包啊,尽量都装在服务器上啊,不要用自己电脑装,等你的包多了之后啊,很多时候就装不上了。
64:02
哎,对,电脑负荷非常大。今下题我们来看这个包干嘛的?嗯,可以了啊。某学包啊,它依赖一定的C语言库啊,C库这个装的时候呢,会比较的麻烦,不像大家装那个机器plot啊很快。很多库啊,它依赖很多的底层逻辑,需要大家重新安装啊,就比较费劲了。
65:06
装我们的2.0版本啊,我们要装2.0版本,不能装1.0啊。1.0版本,很多函数是没有的。尤其是在分析motif的时候啊。啊,现在其实越来越多的研究啊,也已经认识到了这个母体部序列的一个重要性,所以各个软件都已经更新了。包括这个大档啊,我们来看一下这个这个大档啊,它分析B项是非常好的啊。但是大家要注意啊,看这个软件的时候一定要看完啊。一定要看完啊。他这个分析逻辑其实和刚才讲的差不多啊,也是一样。VDC和转录组。哎,VD这个转录组联合分析的一个结果啊,当然每个软件啊,如果它这个软件非常可靠,非常的,哎,非常的这个发的分比较高的话,它的一个教程啊都非常的长,它会详细的说明软件的原理方法。
66:09
以及这个使用的事例等等,大家看完之后呢,再根据自己的需求。来进行一个。根据自己的需求再进行一个。哎,合理的一个代码的设置啊,千万不要一个有个教程就跑啊,比如说我们常见的呃,VDZ分析,可隆考里,哎,我看到了VDZ分析。这还是处于这种链的分析,哎,它也有这种这种,哎,克隆大小的一个分布,就和刚才这个这个差不多。哎,这种差不多啊。哎,包括它的分布,包括它的长度,呃,VD的usage等等,频率啊等等,这都是一些简单的基础分析啊,来体现它的多样性的,第二个就是配对。
67:01
嗯,和overlap overlap的话就是说不同群之间,它的overlap有多深啊,当然这属于基础分析的范畴啊,接下来就是一些聚类啊等等,他在分析实成的时候是非常好的啊。这里面大家可以看一看它的一些核心的一个重新注释呢,这个大家一般就不要再做了啊,第二个就是实成结果啊,一般现在大家都用的是实成啊,还有它和这个软件嫁接,呃,软件之间它内部啊也会取长补短啊,看看它分析的一个效果啊,然后是指控,诶VD的聚类,聚类呢,就是刚才提到的根据序列来聚类,和那个值12345可不一样啊,然后是可视化。哎,可视化,这个可视化了,就和刚才那一样了,相似的要放在一起,哎,不相似的把它丢一边去。哎,这种聚类啊。哎,然后是计算距离和突变,这个突变啊,就是针对BCR设计的啊,T细胞是没有的,超突变只有BCR,哎,分析它的突变信息等等等等,哎,教程非常长啊,分析T材啊等等,最终的结果呢,会拿到它一个核心的某TF序列啊,这是我们分析的一个最终目的啊。
68:21
你们稍等一下啊,把这个包装上。而且某幸福在分,呃,这个分析的时候啊,大家一定要像文章一样讲清楚啊,可不敢瞎讲啊。比如说这个。啊,一定要讲清楚啊,你看它的表示形式SLG。SLG是哪这个地方,这个地方呢,不确定用百分号表示,然后是NTE等等等等啊,就是说有些地方可能涉及到多个氨基酸的时候呢。啊,一般用百分号表示啊,或者说用一种。呃,其他的方式在针对这个某推府分析的时候啊,尤其是这种固定序列,固定序列就是它的一个核心序列,有一些它的序列啊,多个氨基酸都可以啊,4个氨基酸就可以,或者说好几个都可以,这是它的可变序列,可变序列对它的亲和性有影响,但是对它的整体功能没有影响,比如说都可以,比如说都可以识别这个抗原啊,但是呢,由于这个位置不一样,可能亲和力少有差别,本来TCR的亲和力就低。
69:23
哎,这个地方呢,更限制了他的亲和力的影响啊。所以说TCR分析啊,其实是一个很大的一个工程。不是大家简简简简单单的能够,呃,看看T细胞啊,看看单细胞分析就可以搞定了啊。我们来看一下2.0版本啊。啊,2.0版本才有这些函数啊,我们来看一下。首先呢,我们要准备一个文件,哎,这个文件是什么呢?就是Sample文件,诶sample文件呢,大家要准备什么,第一个把它的名字写上,第二个是它的就是市场的文件。
70:06
这个文件呢,我这里面已经准备好了,哎,格式也给大家看过了啊,主要就是8扣的,哎,是不是个细胞。哎,卡序列它其实核心抓的呀,是这个细胞信息。呃,还有这个基因的信息,VDJ是哪几个基因重排得到的,包括它是哪个链,TRATRB, 大家都知道,一个细胞只会表达一个TC,呃,VDC序列配对的啊,还有它的蛋白质序列。哎,还有它的核苷酸序列等等等,这是他抓的一个重点。啊。然后我们来看一下啊。哎,我们的input file呢,就是这个3啊。嗯。第三列还有个分组信息,这个分组信息哪来的?就是正常和疾病,大家这个自定义的啊,自定义的。
71:02
哎,然后我们来读一下啊。读一下之后呢,如果说它是TCR,哎,自然就是用TCR的这个啊,我们是TBC啊,我们也是TC啊BC,大家推荐大家用那个deadline啊deadline。像这种T呃呃,TCL的就用这个,我给大家这个就可以了啊。大家来看这个啊,TCR的分析是比单细胞主要录组要复杂的啊,大家一定要把它在这个基础之上深入理解之后呢再去。哎,再去做它的一个分析,哎,结合之后呢,就会产生新的一个数据结构了,每个样本它的TCR序列,BCR序列,包括8扣的信息,包括是否配对,哎等等就都拿到了啊。接下来呢,第一个就是绘图了,绘图当然这个绘图方式啊。好,这个函数要定义一下啊。
72:01
首先第一步还是那个要绘制那个呃,序列多样性的图。怎么还没?是的。我来快快过一下啊。然后是数据合并。
73:02
颜色的定义啊,这个颜色定义呢,前面定义好了,这个颜色为什么要定义呢?就是大家绘图的时候啊,有些默认颜色太差了。所以每个脚本我都会给大家一个颜色的定义啊,这个颜色的搭配是在项目中运用得到的啊,非常的好啊,颜色非常的就是搭配的非常有层次感。摄像头那个啊,这些参数设置的时候。哎,大家这个参数设的时候一定要跟我一样啊,设的详细一点啊。好。刚好是。哦,这个地方不对啊。
74:07
这个地方不对啊,这个地方要前后一致啊,有问题。改过了。哎,这个时候呢,我们就绘出了第一张图。奥特DRR啊,设置一下这个变量啊,如果不外部指定,一定要内部指定啊。这个我们写test啊,这个大家要结合自己的需求写啊,像这种多样本整合的时候,一般写combine或者写test啊。然后呢,我们画一画。这些变量都是外部指定的,我们啊运行的时候一定要把这变量指定好啊。诺曼定语啊。
75:03
这就是一步一步跑的一个难处啊,每步都会有问题。所以说在公司层面一般都把它封的好好的啊,把它变量设置好。让他这个自动跑就可以了啊,如果像像大家一样一行一行往这个非常烦啊。包的定义很好的。直接pass。哦,是P有问题。
76:08
这个时候呢,第一步画出来它的是一个,嗯。哎,画出来他的是这种。啊,就是它的。每个样本,这个样本WT和PT是什么?刚才大家指定的分组。指定的分组。哎,我指定好了WT和PT啊。然后呢,他第一个是分析的这个独一无二的一个,就是说,呃,当然克隆有多个啊,他把他这个。啊,就是独一无二的比例,占所有的比例的一个呃,值给绘制出来了,大家看最高也就不到50%吧,这是这都还这还属于基础分析的一个范畴啊。第二个。那看看第二个图。
77:11
有。第二幅图呢,也是基础分析的一个范畴啊。啊,这个时候体现的就是什么独一无二的克隆,它的一个整体的百分比啊,数量的一个差异啊。前面那个是百分比,这个是数量啊,这还属于基础分析的一个范畴。哎,我们接着往下啊。然后是计算风度了啊,计算风度了。3。
78:21
Abance就是风度啊,风度在分析的时候呢,我们主要体现它这个。哎,这个风度的变化。当然这里面大家要注意啊,大家要注意我这里面是样本整体的一个分布啊,大家在分析的时候可不敢这么干啊,一定要分好亚群啊,就是说不同样本的亚群那个多少的分布,比如说就是刚才在讲PP的时,PPT的时候提到的要根据哎,独有的群,比如说疾病独有的群,或者正常独有的群,它的一个分布,分布是这样啊。当然公司层面一般不会给大家定义到那么细,哎,分享群啊,还是大家自己要做的啊。
79:03
然后是克隆风度啊。这个地方为什么这个函数用不了,我看一下。可以。啊,克隆风度。这个就是折线图了啊,折线图看出它的一个风度的一个变化,其实其中大部分都是1啊。大部分都是阴啊,只有在patientent PT patient的一个那个patientent的时候,它会这个,呃,数量要多起来之后呢,它就会有达到这个有多个的现象,但是这个地方大家要注意啊,它这个风度的分布啊,还是依据这个。A at t这样一种,呃,硬核的这种物质,这种在分析的过程中是不可取的啊。还是那句话,同样的氨基酸其实是要,哎,是要有这个,同样的氨基酸其实是要有这个权重,权重的变化啊。
80:03
然后就是克隆长度了,这个就不演示了,就是长度的变化。看看有没有重要的。哎,比较坑,户型这个就有点。哎,这个就那个了啊,这个就是我们想要的一个结果了啊。哎,这个就是我们想要的结果了啊。这个都替换掉啊。这个地方没有替换。我们全部替换掉。没有这个变量啊。我们全部把它替换掉啊。
81:02
哪去了?比较克隆型,比较克隆型是我们关注的一个重点。哎,刚才换掉了换过。哎,比较合行。肯定没有。没有说明什么没有共享的啊,这个数据看来不是很合适啊,没有没有就是说没有共享啊,但是大家拿同一个样本,就是同类组织是可以的,我这个是随便找了一个数据啊,说明他没有共享的。然后是克隆空间稳态。啊,这个也是经常强调的一个内容啊。
82:18
哎,这个就是它的一个整体的一个分布了,大家可以看到稀有的。所有就是一条很少那种小的哎,中等的大的哎,等等等等,相对的风度啊,这个风度大家可以看看,只分为两类。啊,小的和me这个里面啊,它告诉了它的一个风度的一个变化啊,风度的一个变化就是说一个克隆在整样本整体的风度的一个。呃,比例是怎样的?哎,很稀有,就是说呃,占比很小,哎,或者说占这种占比等等,说明大部分啊。大部分还是一个隆或者两个克隆,这是正常的一个现象,因为这个克隆啊,前面提到了克隆存在多样性,多样性呢,很多个克隆可以针对一个抗原起到一个真正的效果。
83:02
说是一个克隆,其实它们的作用非常相似啊。然后是克隆比例啦,然后是哎,这个地方就是前面提到的一个什么。哎,这个地方就是前面提到的那个了。我屈服了啊。当然某地的展示形式有很多种啊,它这种采取了采取了这种变化性的展示形式。上。啊,有单链分析,有多链分析啊,一般分析常链。哎,这个地方就体现的是motif的一个相对的一个内容了,就和文章中的这个其实概念是一样的,这个地方如果是C,哎说明它的一个情况,这个C就很稳定啊,相对的多样性,多样性就没有,比如说这个地方是C,那就没有多样性,哎,都一样的,当然有的地方变化幅度很大,哎就成为这样一种,呃,就和这个PPT一样,这种地方。
84:04
变化很大,导致它的存在一个滑动性,但这个图啊,现在大家的真正分析的时候是要分亚群的,不能像我一样拿两个病人啊。笼统的分析其实起不到真正的一个效果啊。一定要分出亚军来,这个脚本的时候,大家一定要在前面分析单细胞的基础上进行一个详细的分析,然后是克隆的overlap。哎,Olap呢,这个啊,我这个样本应该是没有olap啊。然后就是多样性了,这就是基础的分析的一个内容,包括一些某T府分析,这个是大家所要分析的一个重点啊,其中呢,大家呃,还是要强调一点,就是在分析的时候,对它的分亚群那个分析是非常重要的,包括轨迹分析的联合啊。呃,课程上多次强调过,分析的时候啊多,信息来源越多越多啊,越准确越可靠。VDJ也是一样的,无论VDJ是随着时间的变化的一个克隆风,呃,克隆风度的一个负极,还是说它对针对特有的小群的某T的一个分析。
85:07
还是说它克隆共享,就是说它是不是来源于血液和组织来源是不是啊一样的啊,如果说血液来源和肿瘤内部的来源有一些一样的说明是,呃,血液进入到里面去了,对它进行一个克隆,TCR克隆的一个某替分析就能分析得到,哎,可以对肿瘤细胞起到作用的这个核心膜替夫序列。哎,这个当大家把VDZ分析分析到这个程度的时候,哎,基本上VDZ的分析,呃,分析就结束了。大家别看我讲了大概这么一个多小时,好像挺简单的,实际上在理解和分析难度上都非常的大。啊。这个回去大家好好看一看,尤其是各个软件之间的一个分析内容比较。还有这个。哎,他在分析的一个特点啊,重点的软件我都列给大家了啊,大家回去好好看一看,包括一些综述类的内容啊。
86:04
这里面再强调一下TCR的分析呢,包括哎,TCR的一个第一个。苯亚群,哎,就是转录组要分一个,就是独有的亚群或者占主导的亚群,第二个分析独有亚群的一个。哎,共享状态,看看它到底来源于哪,第三个分析它独有亚群的某替福序列,最好是能针对肿瘤细胞起到作用的某替福序列啊,第4个就是根据它的轨迹来看一看它的VDJ,哎,随着时间的,随着T细胞的发育怎样的,随着诶随着时间的发育,它的T细胞是如何的。怎么弹出个这。嗯,随着T细胞的发育,它的某T是如何的进行一个复极的啊,这都是大家单细胞层面的一个VDC分析的一个内容,当然了,再往下就是克隆改造了,克隆蛋白结构了,这个更难啊,更难就可能是临床上的应用了啊。
87:03
好了,大家有什么问题吗?
我来说两句