C
后的第一个氨基酸到 F/W
前的最后一个氨基酸1.2 CDR3长度是免疫多样性的核心指标‘ 1)决定抗原识别能力 CDR3 是 TCR/BCR 中直接接触抗原表位的区域,其长度多样性直接影响抗原结合的特异性与广度。较长的 CDR3 可形成特殊环状结构,识别隐蔽表位(如纳米抗体 CDR3 可达 16-18 个氨基酸);而人类 TCR β 链 CDR3 通常为 8-12.5 个氨基酸,其长度分布反映 T/B 细胞克隆的多样性水平。 2)反映 V(D)J 重排特征 CDR3 长度由 V、D、J 基因片段的重排组合决定。例如,抗体重链长 CDR3 倾向使用 DH2/DH3-JH6 基因片段,短 CDR3 则依赖其他基因组合。在T细胞发育过程中,TCR要经历阳性选择与阴性选择,其CDR3长度因此也会进行过滤,避免过长或者多短CDR3的出现引发TCR过度活化。同样,BCR 也有类似的选择过程,如下图所示,IGH CDR3长度选择前后分布是不一样的,主峰位置不同。这种长度依赖性为解析免疫组库形成机制提供依据。
图1.CDR3 长度在选择前后不同
CDR3 长度分布作为免疫组库的“分子指纹”,其高斯分布特征(峰值约 12-18 个氨基酸)反映了进化优化的重排规律,而非随机事件。通过高通量测序量化这一参数,可解码免疫应答的克隆动态,为精准免疫诊疗提供基石
在免疫组库分析文件中,提供CDR3区域的DNA序列以及对应翻译出来的氨基酸序列。因此,对CDR3长度的分析包括:CDR3 核苷酸长度与CDR3氨基酸长度,后者在分析中更为常见。
CDR3区域核苷酸长度由于并非都是3的倍数,因此有非3倍数长度的核苷酸最终无法翻译成氨基酸,所以也被称之为out of frame.这种非3倍数长度的CDR3序列总量可能占据总体的10%-40%。一般在25%左右。如下图所示,两种的长度分布也存在差异。
图2.Productive (In frame) CDR3序列与out of frame 序列分布的比较
解决方案1:根据是否为in frame 氨基酸来进行CDR3长度计算。排除非3倍数长度核苷酸长度的CDR3序列(这种在对于氨基酸序列中通常出现“-”,说明双侧向中间翻译注释的时候出现缺少或者插入核苷酸),同时排除氨基酸序列中出现中止密码子(星号*)的CDR3序列。
解决方案2:接受所有序列,只根据氨基酸长度来进行CDR3长度计算,将“-”,“*”符合均视为一个氨基酸长度。
1.当对CDR3长度进行了筛选,只选择in frame 氨基酸序列,如何计算CDR3氨基酸长度分布频率?
答:选择1:将所有inframe 氨基酸序列作为一个整体,重新根据这个整体count数计算分布频率(其总频率和=100%)。
选择2:将out frame与in frame的CDR3序列作为整体(100%),计算in frame氨基酸长度分布频率(其总频率总和<100%)
将X轴设置为核苷酸或者氨基酸不同长度数值,Y轴设置为百分比。展示每一个CDR3长度下对应的频率。
利用加权平均值来分析不同样本或者不同链的CDR3平均长度。
如下图所示,图a展示了不同TRBV基因的相对频率。图b展示了不同TRBV基因所形成的CDR3的平均长度。在Y轴题目中注明了Weighted mean(加权平均值),在计算长度的时候,将对应该克隆或者CDR3序列的相对频率值进行了相乘。