HLA 全称human leukocyte antigen, 表示人类白细胞抗原,是编码主要组织相容性复合体(MHC)的基因,位于6p21.31的区域,包含了一系列紧密连锁的基因座。与人类的免疫系统功能密切相关。
HLA全长约3.6M, 含有220多种功能不同的基因,是目前已知的人类染色体中基因密度最高,多态性最为丰富的区域,位置示意图如下
根据基因产物的结构,功能,细胞分布等因素,将HLA基因分成了3大类:HLA-I型基因,包括了HLA-A, HLA-B,HLA-C等经典的抗原基因,还有一些假基因;HLA-II 型基因,其编码产物都是双链蛋白质,包括DR, DP, DQ等基因,HLA-III型基因,包含了C2,C4,BF等补体基因,还包括其他一些基因,分布图如下
某些特定的HLA蛋白与疾病密切相关,比如HLA-B27在临床检测中作为僵直性脊柱炎的标志物。鉴于其基因的高密度和多态性,在研究之初,专门成立了一个委员会,对不同的HLA等位基因制定了统一的命名规则。
一个典型的HLA等位基因名称,示意图如下
HLA
是固定前缀,A
代表基因名称,前缀和基因名称之间用短横线连接;*
星号作为分隔符,分隔符之后是同一个基因的不同allel, 由冒号分隔的多个部分构成,最多包含4个部分,第一组02
代表不同的血清学类型,根据血清学鉴定的结果对不同抗原进行分类;第二组101
代表一种特定类型的蛋白;第三组的01
代表发生在编码区的同义突变;第四组的02
代表发生在非编码区的基因突变;N
为后缀,代表了蛋白的表达水平。
每一个HLA的Allel 都会有一个唯一的ID, 有时会在这些ID 后面添加不同的后缀,通常包含以下几种后缀
不同后缀的含义不同,N
表示该等位基因不表达,L
代表low, 表示这种allel的表达水平相比正常水平要低,S
表示蛋白产物不是位于细胞表面,而是一种可溶性的分泌蛋白;C
表示蛋白产物不是位于细胞表面,而是位于细胞质中;A
表示不确定这个allel的蛋白产物是否存在;Q
表示这个allel会对其他等位基因的表达造成影响。