对肿瘤样本进行基因组和分子分析时,首先需要定量肿瘤和混合的正常细胞的比例[肿瘤纯度(TP)或肿瘤细胞性],用以评估体细胞损伤检测边界并进行适当的比较分析。接下来我们会介绍一些评估样本纯度的方法。之前我们有介绍基于甲基化评估肿瘤纯度的R包InfiniumPurify。
Tracking the Evolution of Non–Small-Cell Lung Cancer
我们发现了个性化联想网络功能地形的规范性性别差异,包括腹侧注意、默认模式和额顶网络。此外,染色体富集分析显示,功能地形多变量模式的性别差异在空间上与x连锁基因的表达以及星形细胞和兴奋性神经元细胞类型的特征相耦合。这些结果突出了性别作为形成功能地形的生物变量的作用。
遗传算法是元启发式算法之一。它有与达尔文理论(1859 年发表)的自然演化相似的机制。如果你问我什么是元启发式算法,我们最好谈谈启发式算法的区别。
来源:DeepHub IMBA本文约2000字,建议阅读5分钟本文为你详细讲解遗传算法。 遗传算法可以做什么? 遗传算法是元启发式算法之一。它有与达尔文理论(1859 年发表)的自然演化相似的机制。如果你问我什么是元启发式算法,我们最好谈谈启发式算法的区别。 启发式和元启发式都是优化的主要子领域,它们都是用迭代方法寻找一组解的过程。启发式算法是一种局部搜索方法,它只能处理特定的问题,不能用于广义问题。而元启发式是一个全局搜索解决方案,该方法可以用于一般性问题,但是遗传算法在许多问题中还是被视为黑盒。 那
今天跟大家分享的是2020年3月发表在Nature(IF=43.07)杂志上的一篇文章Patterns of somatic structural variation in human cancer genomes。文章中作者解释了人类癌症基因组中体细胞结构变异的模式。
英文标题: Integrative analysis of genomic alterations in triple-negative breast cancer in association with homologous recombination deficiency
ABBA BABA 统计(也称为“D 统计”)为偏离严格的分叉进化历史提供了简单而有力的测试。因此,它们经常用于使用基因组规模的 SNP 数据(例如来自全基因组测序或 RADseq)来测试基因渗入。
机器之心编译 参与:蒋思源 在该论文中,研究者提出了一种进化深度网络(Evolutionary Deep Network/EDEN),即一种神经进化(neuro-evolutionary)算法。该算法结合了遗传算法和深度神经网络,并可用于探索神经网络架构的搜索空间、与之相关联的超参数和训练迭代所采用的 epoch 数量。机器之心简要介绍了该论文。 论文地址:https://arxiv.org/abs/1709.09161 在 Emmanuel 等人的研究工作中,除了探索超参数和 epoch 数以外,他们还
在所有的基因型填充软件中,都会区分常染色体和X染色体,分别进行填充,为何对于X染色体要单独处理呢?
食管鳞状细胞癌 (esophageal squamous-cell carcinoma, ESCC) 占全球食管癌病例的 80%,5 年生存率低于 30%。 早期阶段通常比晚期阶段有更好的预后,但目前缺乏有助于早期诊断和准确预测预后的有效生物标志物。
生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
ABBA BABA 统计(也称为 D 统计)为偏离严格的分叉进化历史提供了简单而有力的检验。因此,它们经常用于使用基因组规模的 SNP 数据测试基因渗入。
在上一次直播中,我们说到了一个不符合我们的认知的问题。就是我的全基因组测序数据里找到的SNV的纯合杂合比例失衡,这着实让我非常纠结。在朋友圈大量求助中,肿瘤所的朋友非常热心的帮我检查了她手头的几百个外
ATAC-seq(Assay for Transposase-Accessible Chromatin with high throughput sequencing) 是2013年由斯坦福大学William J. Greenleaf和Howard Y. Chang实验室开发的用于研究染色质可及性(通常也理解为染色质的开放性)的方法, 原理是通过转座酶Tn5容易结合在开放染色质的特性,然后对Tn5酶捕获到的DNA序列进行测序。 真核生物的核DNA并不是裸露的,而是与组蛋白结合形成染色体的基本结构单位核小体,核小体再经逐步的压缩折叠最终形成染色体高级结构(如人的DNA链完整展开约2m长,经过这样的折叠就变成了纳米级至微米级的染色质结构而可以储存在小小的细胞核)。而DNA的复制转录是需要将DNA的紧密结构打开,从而允许一些调控因子结合(转录因子或其他调控因子)。这部分打开的染色质,就叫开放染色质,打开的染色质允许其他调控因子结合的特性称为染色质的可及性(chromatin accessibility)。因此,认为染色质的可及性与转录调控密切相关。 开放染色质的研究方法有ATAC-seq以及传统的DNase-Seq及FAIRE-seq等,ATAC-Seq由于所需细胞量少,实验简单,可以在全基因组范围内检测染色质的开放状态,目前已经成为研究染色质开放性的首选技术方法。
拓扑加权是量化不一定是单系群之间关系的一种方法。它通过考虑更简单的“分类单元拓扑”并量化与每个分类单元拓扑匹配的子树的比例,提供了复杂谱系的摘要。我们用来计算权重的方法称为 Twisst:通过子树迭代采样进行拓扑权重。
每一条染色单体由单个线性DNA分子组成。细胞核中的DNA是经过高度有序的包装,否则就是一团乱麻,不利于DNA复制和表达调控。这种有序的状态才能保证基因组的复制和表达调控能准确和高效进行。
杂合性丢失,表现为该区域内不存在杂合的状态;可以是拷贝数为2,也可以是发生缺失拷贝数为1的情况;
Control-Freec 既可以检测拷贝数变异CNV,还可以分析杂合性缺失LOH。官网如下
VCF 是生物信息分析中非常重要的一种格式。主要用来描述基因组突变的信息,无论是检测出来的 SNP,indel,cnv,还是 SV,都可以存储格式都为 vcf 格式。从比对生成的 bam 文件中,将潜在变异信息筛选出来,就是 vcf 格式。vcf 是一种列表格式,里面包含很多的内容。需要掌握每一列的信息,并能使用相对应的软件对 vcf 进行处理。处理 VCF 格式软件主要包括 bcftools,vcftools,gatk,python pyvcf,plink 等。
现在运行 infercnvpy.tl.infercnv()。本质上,该方法通过染色体和基因组位置对基因进行分类,并将基因组区域的平均基因表达与参考进行比较。原始的 inferCNV 方法使用上下游50个基因作为窗口,但更大的窗口大小可能有意义,具体取决于数据集中的基因数量。
今天给大家带来的是2020年3月发表在Nat Genet(IF=27.603)杂志上的文章“Pan-cancer analysis of whole genomes identifies driver rearrangements promoted by LINE-1 retrotransposition”。文章中作者通过泛癌数据分析了LINE-1 逆转座促进各种类型的重排。
导读 人类大脑在许多认知以及行为等方面都表现出明显的性别差异,这些差异具有可重复性,而且更为重要的是,这些差异或许可以反映不同性别间大脑内部局部组织的不同。这些差异的稳定性、起因以及产生的影响被广泛、热烈的讨论,但却没有被细致的研究过。加之最近在啮齿类动物中的一系列研究建立了性别差异在神经生理学上的理论基础:1)局部灰质体积(regional gray matter volume,regional GMV)的性别差异稳定的分布在大脑皮层以及一些经典的皮下核团;2)与社交以及生殖行为有关的神经环路在局部GMV差异分布中占据主导地位;3)性染色体的基因表达与GMV差异模式具有耦合关系。这篇发表在美国科学院院报(PNAS)题为“Integrative structural, functional, and transcriptomic analyses of sex-biased brain organization in humans”的文章,便是基于啮齿类动物中的研究基础,针对在人类大脑中该类问题的研究空白,对性别差异从脑结构、脑认知活动以及基因表达多模态多尺度做了全方位细致的探究。下面即对本文作解读。
CNVseq一般针对的是流产物或者全血白细胞,是比较纯的组织样本,一般用比到Y染色体上的总reads数占总常染色体 reads数的比例,人为设置一个cutoff就能很轻易的区分性别。WES一般也针对的是全血白细胞,也可通过此方法来准确分性别。但NIPT数据一般测序量(5-8M single end reads)比CNVseq还少,在胚胎DNA含量较低的时候区分性别方面,如果再采用固定cutoff的方法,可能会因为没有屏蔽X和Y的同源区域或者非唯一比对区域,经常会出现性别分的不准的问题。
通过SNP芯片来检测CNV,对应的分析软件有很多,PennCNV就是其中之一,该软件通过隐马可夫模型来检测CNV, 官网如下
CNVs,即拷贝数变异,它不仅与人类的多态性相关。而且,极有可能造成包括生长发育迟缓、行为言语障碍以及神经发育迟缓、自闭症谱系障碍等神经精神疾病在内的各种疾病!!!
Identification of relevant genetic alterations in cancer using topological data analysis
在TCGA项目中,使用Affymetrix SNP 6.0芯片来分析CNV, 首先使用DNACopy这个R包来计算拷贝数,然后用GISTIC2根据CNV来评估基因的变化情况,识别loss还是gain, 流程示意如下
背景知识 男性只有一条X染色体和一条Y染色体,所以,理论上它们上面的SNV都应该是纯合的! X,Y除了同源区域外,其它地方差异很大。所以在女性样本里面即使是混入了极低量的男性样本,也很容易检测出来。同理,男性样本里面混入了女性样本,会给男性带来大量的X染色体的杂合SNV,也很容易检测出来。 我的测序结果 我对前面步骤call到的vcf格式的变异位点文件进行了X,Y染色体的简单统计,代码如下: cat jmzeng.freebayes.vcf |grep -w 'chrY'|grep -v "^#" |cu
Hi-C技术对高阶染色质结构进行全基因组研究正在成为理解基因调控机制的重要组成部分。可视化多组学数据并使用交互式浏览器进行直观分析成为一种强大且流行的方式。近日,《Briefings in Bioinformatics》发表了一个有效的序列和染色质相互作用数据显示浏览器——HiBrowser,用于可视化和分析Hi-C数据及其相关的遗传和表观遗传注释。
时光荏苒,2022年也即将结束,这一年,单细胞空间多组学技术进一步带领我们走入生物组织的微观世界。单细胞多组学的技术发展让研究人员可以从单个细胞的维度进行遗传学、转录组学、蛋白组学等方面的深入解析,空间多组学则从细胞空间排布的角度帮助研究者洞悉细胞之间的相互协作及动态迁移,单细胞空间技术的联合使用已经成了科研手段的研究利器,从更深层次的方面解读发育、疾病等发生的生物学机制。
神经母细胞瘤是一种外周交感神经系统的小儿肿瘤。肿瘤的表现从自发退化到无法治愈的进展不等。尽管有广泛的治疗,如化疗、手术、放射治疗和免疫治疗,高风险神经母细胞瘤患者的存活率仍低于50%。在大多数患者中,可以观察到对治疗的初步反应,然而,这些患者中高达60%的患者随后复发,并伴有难治性肿瘤。一些遗传变异,包括MYCN扩增和染色体节段性改变,如1p缺失、11q缺失或17q扩增,与预后不良有关。然而,尚不清楚哪些遗传缺陷与疾病复发有关。
肿瘤的形成过程中涉及到了多种类型的基因组变异,比如点突变,拷贝数变异,基因融合等等,肿瘤和遗传病不同,各种基因组变异是后天形成的,所以在肿瘤研究中,关注的是体细胞上的基因组变异。
英文标题:The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes
当然了,如何提问,就需要一点点背景知识啦, 比如知道什么是变异位点,什么是过滤,然后就可以很简单的两个提问即可:
人类基因组大小在3G左右,这么多的DNA线性排列,完全展开其长度可以达到2米,而细胞直径是微米级别的,这意味着DNA在细胞核内肯定是高度折叠的。众所周知,结构决定功能,这样的空间结构势必对于生命体复杂的功能造成了影响。
前言 人类总是在生活中摸索规律,把规律总结为经验,再把经验传给后人,让后人发现更多的规规律,每一次知识的传递都是一次进化的过程,最终会形成了人类的智慧。自然界规律,让人类适者生存地活了下来,聪明的科学家又把生物进化的规律,总结成遗传算法,扩展到了更广的领域中。 本文将带你走进遗传算法的世界。 目录 遗传算法介绍 遗传算法原理 遗传算法R语言实现 1. 遗传算法介绍 遗传算法是一种解决最优化的搜索算法,是进化算法的一种。进化算法最初借鉴了达尔文的进化论和孟德尔的遗传学说,从生物进化的一些现象发展起来,这些现象
需要两个基本元素,第一个是检测样本的分型结果,即图中所示的study genotypes, 第二个元素称之为reference panel, 对应图中的reference haplotypes, 利用高密度的reference panel对检验样本为覆盖到的SNP位点,或者缺失的分型结果进行填充,对应图中问号表示的位点。
网上有很多博客讲解遗传算法,但是大都只是“点到即止”,虽然给了一些代码实现,但也是“浅尝辄止”,没能很好地帮助大家进行扩展应用,抑或是进行深入的研究。
PEPATAC是基于python开发的一个ATAC数据分析的pipeline, 网址如下
今天跟大家分享的是2020年2月发表在Nature(IF=43.07)杂志上的一篇文章。文章中作者讨论了2,658种癌症的进化史,说明了早期癌症检测的可能性。
Hi-C是研究染色质三维结构的一种方法。Hi-C技术源于染色体构象捕获(Chromosome Conformation Capture, 3C)技术,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,获得高分辨率的染色质三维结构信息。
不论是highlights还是links,展示的都是染色体上某段区域的信息,在实际的数据中,除了区间信息外,还会有该区间对应的数据信息,比如测序深度等信息。对于这种信息,通常我们会使用散点图,折线图等图表来展现。
高通量染色体构象捕获技术(High-throughput chromosome conformation capture,Hi-C)是一种用于研究基因组中染色体的三维结构分子生物学技术。它通过对DNA进行特殊的修饰和捕获,然后对修饰后的DNA进行测序,来确定基因组中不同区域之间的相互作用。这种技术可以帮助研究人员了解基因的功能和调控,以及在染色体中的不同位置的基因之间相互作用。
检索关于TCGA可变剪切的相关文献。虽然总的数量并不是很多,但是其在2019年猛增为49,在2020年的上半年发文数量也达到了2019的一半,说明可变剪切研究在生信方面的热度有上升的趋势。
目前,检测胎儿及婴幼儿是否患有染色体病或基因组病的方法主要包括染色体微阵列分析(CMA)和低深度全基因组测序(CNV-seq)。
随着时间的推移,真核生物的基因组在基因同线性(synteny)和共线性(collinearity)方面存在一定程度的差异。这些差异在不同生物类群之间表现出不同的特征。
这张扫描电子显微镜图像显示了一对连接的Y染色体(右)与一对连接的X染色体相比,在细胞分裂前期时重复的Y染色体(右)小了多少。图片来源:BIOPHOTO ASSOCIATES/SCIENCE SOURCE
深圳华大生命科学研究院、爱丁堡大学、约翰•霍普金斯大学、纽约大学、清华大学、天津大学等多家单位,通过开发酿酒酵母基因组序列设计与染色体构建技术,从头设计与全合成了酿酒酵母II号染色体(synII,长770 Kb),并成功导入酵母细胞,合成酵母菌株展现出与野生型高度相似的生命活性。此次国际协作组对真核生物酿酒酵母基因组的成功改造,是继人工支原体后人工生命创造领域又一里程碑式进展。该成果在2017年3月10日以封面专刊文章的形式发表于国际顶级学术期刊Science,入选2017年度中国科学十大进展,以下是共同第一作者王云博士详细解读。
领取专属 10元无门槛券
手把手带您无忧上云