大家好,今天和大家分享的是2020年1月14日发表在Brief. Bioinformatics 上(IF=8.99)的一篇文章。作者对28例癌症患者的WES和RNA-seq数据,使用4种HLA分型工具(OptiType、Phlat、Polysolver和seq2hla)来预测HLA类Ia基因,接着分别用NGS技术与PCR-SBT方法获得的HLA分型数据进行比较,从而对其进行了性能评估。
人类白细胞抗原(HLA)和肽(pHLA)之间相互作用的计算预测可以加快表位筛选和疫苗设计。因此,上海交通大学魏冬青教授和熊毅副研究员的博士生褚晏伊和香港大学深圳医院的张艳博士合作开发了TransMut框架。该文章于2022年3月23日发表于《Nature Machine Intelligence》。该框架包含了用于pHLA结合预测的TransPHLA和用于突变肽优化的AOMP程序,它可以推广到生物分子的任何结合和突变任务(图1)。
数据库中主要收录了HLA I 型和II 型基因的Allel信息,此外,还包含了一些非HLA基因的Allel
HLA基因,位于6号染色体上短臂上,长约4000Kb。HLA是目前所知人体最复杂的遗传多态性系统,有几十个基因座位,每个基因座位又有几十个等位基因,且呈共显性表达。由于MHC基因位于同一条染色体上,其多基因座位上的基因型组合相对稳定,很少发生同源染色体间交换,这就构成了以单元型(HAPLOTYPE,即在同一条染色体上紧密连锁的一系列等位基因的特殊组合)为特征的遗传。按中国人常见的A座位基因有13个,B座位基因有30个计算,可组成的单元型约有13×30=390种之多。
主要是参考这个进行的,https://github.com/humanlongevity/HLA 其文章在这:http://www.pnas.org/content/early/2017/06/27/1707945114
scHLAcount允许我们使用个性化的参考基因组计算HLA I类基因HLA-A、B和C的单细胞转录组序列数据中的分子数;和HLA II类基因DPA1, DPB1, DRA1, DRB1, DQA1, DQB1。可以使用由替代方法确定的提供的HLA类型,也可以使用此工具分析HLA类型,然后根据这些调用进行量化。
发现这个软件之前的官网已经打不开,但是在github上仍然在更新,https://github.com/SyntekabioTools/HLAscan或许是换了工作?最近一次更新是2019.12.4,还是比较新的。发现wegene的NGS HLA分型报告是用的这个软件的参考文献,估计还是权威些的。
大家好!今天给大家介绍一篇2022年8月发表在Molecular cancer research(IF:6.333)上的一篇文章。作者在泛癌水平上分析HLA基因的表达水平及其在免疫微环境中的作用。
祖国母亲70周年华诞,有7天小假期,为了让您过得更加的充实,特为您奉上一门2个小时的学习课程。课程主要是重现一篇5.7分的生信文章《Correlation of alteration of HLA-F expression and clinical characterization in 593 brain glioma samples》,同时指导您举一反三的方法,让您能够轻松掌握5分文章的生信分析方法。 目前课程有优惠价,点击文末的“阅读原文”直接抢购,也可以先让我向您介绍一下这5.7分文章的分析内容。
一个可以进行在线HLA imputatation和关联分析的网站,要不要试试呢?有点疑惑的是并没有把HAN.MHC这个参考放上去,毕竟这个有1万人的样本量,应该相对更准确的。
目前国内的新冠肺炎疫情在慢慢消退,小伙伴们是不是对回归校园充满了向往?一场新冠肺炎让好多小伙伴的“work from home”的梦想实现了,但是滋味却是五味杂陈,有点消受不起了?找点事干,学点什么是不是小伙伴们迫切要做的呢?作图丫是以肿瘤研究与文章绘图为主的公众号,为了让小伙伴们在家的时候也能技能大涨,不虚度光阴,作图丫为新老朋友送上一份大礼---一门2个小时的价值499元的学习课程,注意2020年5月1日以后不再免费,要想学习就要付费喽,大家抓紧时间快来领取吧。
之前的分析都是基于第一个病人的PBMC,这次将基于这位病人的tumor:GSE117988_raw.expMatrix_Tumor.csv.gz
HLAScan是由韩国的科研团队开发的一款HLA分型工具,可以处理WGS, WES和目标区域捕获测序的数据,将reads与IMGT/HLA数据库中的reads进行比对,然后确定HLA的基因型信息。
在研究SNP时,我们有类似1000G,HapMap, Exac 等数据库,提供了不同人群中的频率信息。对于HLA的研究而言,也有存储频率信息的数据库-ANFD。
(2) HLA-II分子往往与更长的肽结合。HLA-I分子一般与长度为8-11肽表位序列结合,但HLA-II分子往往会与更长的肽表位序列结合,通常长度会达到14-18。
PCR-SBT方法是世界卫生组织WHO推崇的HLA 分型的金标准,其实就是指的直接测序,无论是WGS, WES, RNA_seq 数据都可以。近几年来涌现了很多的软件,支持从NGS测序数据直接确定HLA Allel, HLAminer 就是其中之一。
这几天随便搜索snp2hla软件的参考数据集的时候发现一个韩国科学家写了一个数据集合并脚本,在使用韩国人样本测试时准确性较分别只用两个未合并的数据集准确性有所提高,于是,就找到了论文提供的脚本合并了一下。中间还有个小插曲,应该是作者在公开脚本的时候忘记放了一个R语言脚本,于是发邮件找作者要,很快就收到了这个文件,在此感谢作者!
HLA 全称human leukocyte antigen, 表示人类白细胞抗原,是编码主要组织相容性复合体(MHC)的基因,位于6p21.31的区域,包含了一系列紧密连锁的基因座。与人类的免疫系统功能密切相关。
对于不同的HLA Allel来说,exon2和exon3 序列的差异性尤为明显,很多的HLA 分型软件都会根据这部分序列,整理出HLA Allel序列参考数据库。
HLA-VBseq 利用全基因组测序的数据,可以提供8位的HLA分型结果,其文献链接如下
从示意图可以看出,一个HLA Allel 可以分成四个字段,在加上最后的修饰后缀,共5个字段;在定义HLA 分型结果的分辨率时,会根据分型结果的最大位数来判断,如果只给出了字段一,即血清学分类的信息,代表是2位的分型结果;如果最多给出了字段二,即对应的蛋白信息,代表是4位的分型结果;如果最多给出了字段三,即CDS区信息,代表是8位的分型结果;如果分型结果给出了最后的后缀,代表是9位的分型结果。
HLA Dictionary , 中文名叫做HLA 字典,记录了HLA-A, -B, -C, -DRB1/3/4/5 和 -DQB1 等HLA基因的不同Allel 对应的血清学分析鉴定的抗原。
今天给大家介绍澳大利亚蒙纳士大学ShuTao Mei等人在Briefings in Bioinformatics 2021上发表的文章“Anthem: a user customised tool for fast and accurate prediction of binding between peptides and HLA class I molecules”。为了提高在预测肽与HLA-I类分子预测任务中的精度,同时兼顾模型的效率,本文使用了多种评分函数进行特征提取,并使用AODE (Aggregating One-Dependence Estimators) 的机器学习方法,对所得的评分特征进行聚合,从而充分利用评分特征对数据进行预测。作者设计并搭建了快速准确预测肽与HLA-I类分子结合的可用户定制型工具Anthem,支持直接预测、用户模型训练和用户模型预测功能,实现了用户定制功能。作者开发的用户友好型的工具框架,支持用户模型的定制化需求,以更好地应对相关数据快速增加而带来的挑战。在实验数据集和独立数据集的评估下,相对于其它工具,Anthem获得了更高的总体相似度和AUC值。
之前做了一个简单的网页,使用23andme格式+snp2hla软件获得hla分型数据,当然准确性不咋的,也就玩玩,上线后为大约100+人提供了服务,这是伯值得骄傲的事,因为第一次能为大家提供服务。代码我是放在了gitHub的,数据是脚本处理完后自动删除。看网页是不是有点眼熟,这是谷歌中国网页框架,直接搬来的。
Merkel cell carcinoma:梅克尔细胞癌又名皮肤小梁状癌、原发性皮肤神经内分泌癌、皮肤原发性小细胞癌及皮肤APUD瘤。
今天给大家介绍Ji Wan等人在BMC Bioinformatics 2021上发表的文章“MATHLA: a robust framework for HLApeptide binding prediction integrating bidirectional LSTM and multiple head attention mechanism”。在HLA分子与肽的结合预测任务中,基于深度学习的预测模型虽然表现出较好的性能,但许多依赖于特定类型的HLA分子或特定的肽表位长度,且对数据量依赖较大,这导致数据量较少的HLA-C类分子和长肽表位的预测性能相对不佳。为此,作者基于双向LSTM和Multi-head Attention提出了新的预测模型,改善了HLA-C类分子和长肽表位的预测性能。
背景:重症的可靠预后生物标志物可作为重症 COVID-19 复发的早期指标,以及对患者进行抗病毒治疗的分类。
感染新冠病毒但从未出现症状的人——所谓的"超级逃避者"——可能在他们的基因库中有一张王牌。加州大学旧金山分校的研究人员主持的一项新研究发现,“超级逃避者”体内携带一种特定的基因突变的可能性是出现症状者的两倍多,这种突变有助于他们消灭病毒。
发现已经下载不到的软件是hla-hd, hlascan, 本来一直信任xhla,却发现这个软件竟然处理手上这个特殊的样本也报了个罕见错误,大概是可能性比较多,代码bug。soap-hla运行个perl报错,hlarepoter也没跑成功。
highlight默认只支持单个属性高亮,使用require_field_match属性置为false则可以使所有属性高亮
可以用snp芯片数据实现HLA分型,任意的SNP芯片,只要位点数足够即可(几十万)。
抗原表位指的是抗原分子中决定抗原特异性的特殊化学基因,抗原通过抗原表位与对应的抗原受体想结合,从而引起免疫应答反应。一个抗原分子可以含有多个抗原表位,抗原表位的性质,数目和空间结构决定了抗原的特异性。
之前我们发过一篇文章,文章中说如何寻找与某个疾病相关的遗传信息,简单复习一下: 我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为一些基因发生了改变。 目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析,并找到了疾病相关的多个易感位点。 携带某种基因易感位点的人,就会有很大概率换上某种疾病。 我们通过全基因组关联分析(GWAS)找出来与某个疾病关联最大的基因位点集合(SNP或说variant),GWAS分析的思想如下
HLAminer软件可以同时对HlA I型基因和II 型基因进行分型,但是分型结果中不可避免的会存在假阳性的结果。为了提高分型结果的准确性,不同的研究团队都在开发新的工具和算法,Opitype是一款专门针对HLA I型基因进行分型的软件,可以提供精确的4位分型结果。
表格来源:https://www.nature.com/articles/jhg2015102/tables/2
在我们的科研中,常常遇到需要用散点图、火山图或者曼哈顿图进行数据可视化,就会碰到一个问题,在众多的点中,哪些才是我们想要找到的呢?今天小编给大家介绍的这个R包easylabel,可以轻松标记散点图以及快速绘制火山图和 MA 图以进行基因表达分析。使用交互式shiny和绘图界面,我们可以将鼠标悬停在点上以查看特定点的位置,然后单击点以轻松标记它们。 还提供了一种直接导出为 PDF 以供发表的简单方法。
TSNAdb是一个肿瘤特异性新抗原的数据库,从TCGA和TCIA数据库中收集了16种肿瘤共7748个肿瘤样本的体细胞突变和HLA alleles信息,然后分别使用NetMHCpan v2.8和NetMHCpan v4.0两款软件来预测突变的肽段与HLA之间的亲和力,对应的文章链接如下
来源:专知本文1000字,建议阅读5分钟TransPHLA设计了Transformer衍生模型来预测pHLA的结合。 近日,国际知名期刊《Nature Machine Intelligence》在线发表了上海交通大学生命科学技术学院魏冬青团队的研究论文《A transformer-based model to predict peptide–HLA class I binding and optimize mutated peptides for vaccine design》。生命科学技术学院2017级博
原文题目为:A single-cell atlas of the peripheral immune response in patients with severe COVID-19
肿瘤内异质性的形成可由遗传因素和非遗传变异导致,通过追踪克隆(存在于所有肿瘤细胞内)和亚克隆(存在于肿瘤细胞的一个子集)突变,我们发现「在肿瘤内存在不同的进化模式」:
免疫监视学说认为免疫系统就像一支 “作战优良” 的部队一般,能够持续地监视体内出现的异常细胞,识别并摧毁它们。同样地,免疫系统可通过癌症免疫周期 (Cancer-Immunity Cycle , CIC) 对抗杀死部分肿瘤细胞(可参考往期推文:免疫治疗之非小细胞肺癌)。可肿瘤细胞似乎有 “免死金牌” 一般,总神奇般 “死灰复燃”,人们对此很是困惑。直到 2006 年,Allison 提出免疫检查点,指程序性死亡受体及其配体,存在于免疫系统中,担负着上调或下调免疫系统信号的作用 (可参考往期推文:免疫检查点大组团,谁能 “C 位出道”)[1]。
提醒自己整理笔记推陈出新的同时,告诉中途了解到的老师同学这个专辑的学习性质,避免水文之嫌
Seurat - Guided Clustering Tutorial (https://satijalab.org/seurat/v3.0/pbmc3k_tutorial.html)
曾老师的单细胞视频看好几遍了,但是关于单细胞的代码一句也没写过。。。主要原因是一直没有这方面的需求。。
今天带来的是丹麦哥本哈根大学健康科学学院NNF蛋白质研究中心蛋白质组学项目的实验室的Matthias Mann课题组发表在nature communications上的AlphaPeptDeep: a modular deep learning framework to predict peptide properties for proteomics。
这次要重复的图片是来自文章:Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA(https://www.nature.com/articles/s41467-018-06300-3)
Execution monitoring includes action monitoring, plan monitoring.
在4月期间,总共发表了医学相关在线数据库34个。下面就来给大家介绍一下主要有哪些数据库,以及笔者比较感兴趣的数据库。如果想要所有相关数据库信息的,后台回复:2104。
肿瘤细胞与附近的细胞一起存在于复杂的细胞群落中,这强烈影响肿瘤细胞的生长、行为和与其他细胞的交流。在这些细胞中,免疫细胞是关键的参与者,许多研究证明肿瘤细胞和免疫细胞之间的交流是双向的。事实上,免疫细胞既能促进也能抑制癌变、肿瘤进展、转移和复发。因此,文章主要关注肿瘤免疫微环境(TIME)。
理论知识学再好,能付诸实践灵活运用才行,所以我们常强调知行合一,实践出真知。实战演练这个栏目就是带大家从头到尾完整复现单细胞文献分析流程。好了,干货多,屁话少,我们来看实战流程。
领取专属 10元无门槛券
手把手带您无忧上云