用于在样本中识别最小染色体区域的Python - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

评估肿瘤纯度的方法（二）：基于单核苷酸变异 TPES

对肿瘤样本进行基因组和分子分析时，首先需要定量肿瘤和混合的正常细胞的比例[肿瘤纯度(TP)或肿瘤细胞性]，用以评估体细胞损伤检测边界并进行适当的比较分析。接下来我们会介绍一些评估样本纯度的方法。之前我们有介绍基于甲基化评估肿瘤纯度的R包InfiniumPurify。

01

肿瘤多区域取样的进化分析五：追踪非小细胞肺癌的进展

Tracking the Evolution of Non–Small-Cell Lung Cancer

02

您找到你想要的搜索结果了吗？

是的

没有找到

青少年关联网络功能地形的性别差异

我们发现了个性化联想网络功能地形的规范性性别差异，包括腹侧注意、默认模式和额顶网络。此外，染色体富集分析显示，功能地形多变量模式的性别差异在空间上与x连锁基因的表达以及星形细胞和兴奋性神经元细胞类型的特征相耦合。这些结果突出了性别作为形成功能地形的生物变量的作用。

04

优化算法之手推遗传算法（Genetic Algorithm）的详细步骤图解

遗传算法是元启发式算法之一。它有与达尔文理论（1859 年发表）的自然演化相似的机制。如果你问我什么是元启发式算法，我们最好谈谈启发式算法的区别。

02

优化算法之手推遗传算法（Genetic Algorithm）的详细步骤图解

来源：DeepHub IMBA本文约2000字，建议阅读5分钟本文为你详细讲解遗传算法。遗传算法可以做什么？遗传算法是元启发式算法之一。它有与达尔文理论（1859 年发表）的自然演化相似的机制。如果你问我什么是元启发式算法，我们最好谈谈启发式算法的区别。启发式和元启发式都是优化的主要子领域，它们都是用迭代方法寻找一组解的过程。启发式算法是一种局部搜索方法，它只能处理特定的问题，不能用于广义问题。而元启发式是一个全局搜索解决方案，该方法可以用于一般性问题，但是遗传算法在许多问题中还是被视为黑盒。那

03

PCAWG01 | 人类癌症基因组中体细胞结构变异的模式

今天跟大家分享的是2020年3月发表在Nature(IF=43.07)杂志上的一篇文章Patterns of somatic structural variation in human cancer genomes。文章中作者解释了人类癌症基因组中体细胞结构变异的模式。

02

【生信文献200篇】95 多组学探索TNBC

英文标题： Integrative analysis of genomic alterations in triple-negative breast cancer in association with homologous recombination deficiency

04

生信教程：使用全基因组SNP数据进行ABBA-BABA分析

ABBA BABA 统计（也称为“D 统计”）为偏离严格的分叉进化历史提供了简单而有力的测试。因此，它们经常用于使用基因组规模的 SNP 数据（例如来自全基因组测序或 RADseq）来测试基因渗入。

02

学界 | 结合遗传算法与DNN的EDEN：自动搜索神经网络架构与超参数

机器之心编译参与：蒋思源在该论文中，研究者提出了一种进化深度网络（Evolutionary Deep Network/EDEN），即一种神经进化（neuro-evolutionary）算法。该算法结合了遗传算法和深度神经网络，并可用于探索神经网络架构的搜索空间、与之相关联的超参数和训练迭代所采用的 epoch 数量。机器之心简要介绍了该论文。论文地址：https://arxiv.org/abs/1709.09161 在 Emmanuel 等人的研究工作中，除了探索超参数和 epoch 数以外，他们还

06

X染色体的基因型填充

在所有的基因型填充软件中，都会区分常染色体和X染色体，分别进行填充，为何对于X染色体要单独处理呢？

03

IF38！DNA甲基化相关癌症的诊断与预后分析~

食管鳞状细胞癌 (esophageal squamous-cell carcinoma, ESCC) 占全球食管癌病例的 80%，5 年生存率低于 30%。早期阶段通常比晚期阶段有更好的预后，但目前缺乏有助于早期诊断和准确预测预后的有效生物标志物。

02

生物信息学入门必须了解的名词

生物信息学（bioinformatics）：综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟，基因遗传和物理图谱的处理，核苷酸和氨基酸序列分析，新基因的发现和蛋白质结构的预测等。

06

生信教程:ABBA-BABA分析之滑动窗口

ABBA BABA 统计（也称为 D 统计）为偏离严格的分叉进化历史提供了简单而有力的检验。因此，它们经常用于使用基因组规模的 SNP 数据测试基因渗入。

04

【直播】我的基因组49:Y染色体的SNV不能用常规流程来找？

在上一次直播中，我们说到了一个不符合我们的认知的问题。就是我的全基因组测序数据里找到的SNV的纯合杂合比例失衡，这着实让我非常纠结。在朋友圈大量求助中，肿瘤所的朋友非常热心的帮我检查了她手头的几百个外

09

第1篇：ATAC-seq的背景介绍以及与ChIP-Seq的异同

ATAC-seq（Assay for Transposase-Accessible Chromatin with high throughput sequencing）是2013年由斯坦福大学William J. Greenleaf和Howard Y. Chang实验室开发的用于研究染色质可及性（通常也理解为染色质的开放性）的方法，原理是通过转座酶Tn5容易结合在开放染色质的特性，然后对Tn5酶捕获到的DNA序列进行测序。真核生物的核DNA并不是裸露的，而是与组蛋白结合形成染色体的基本结构单位核小体，核小体再经逐步的压缩折叠最终形成染色体高级结构（如人的DNA链完整展开约2m长，经过这样的折叠就变成了纳米级至微米级的染色质结构而可以储存在小小的细胞核）。而DNA的复制转录是需要将DNA的紧密结构打开，从而允许一些调控因子结合（转录因子或其他调控因子）。这部分打开的染色质，就叫开放染色质，打开的染色质允许其他调控因子结合的特性称为染色质的可及性（chromatin accessibility）。因此，认为染色质的可及性与转录调控密切相关。开放染色质的研究方法有ATAC-seq以及传统的DNase-Seq及FAIRE-seq等，ATAC-Seq由于所需细胞量少，实验简单，可以在全基因组范围内检测染色质的开放状态，目前已经成为研究染色质开放性的首选技术方法。

03

生信教程：使用拓扑加权探索基因组进化（1）

拓扑加权是量化不一定是单系群之间关系的一种方法。它通过考虑更简单的“分类单元拓扑”并量化与每个分类单元拓扑匹配的子树的比例，提供了复杂谱系的摘要。我们用来计算权重的方法称为 Twisst：通过子树迭代采样进行拓扑权重。

03

TCGA数据库：ATAC-Seq数据的下载整理及其可视化

每一条染色单体由单个线性DNA分子组成。细胞核中的DNA是经过高度有序的包装，否则就是一团乱麻，不利于DNA复制和表达调控。这种有序的状态才能保证基因组的复制和表达调控能准确和高效进行。

03

ROH大揭秘！

杂合性丢失，表现为该区域内不存在杂合的状态；可以是拷贝数为2，也可以是发生缺失拷贝数为1的情况；

05

Control-Freec:检测拷贝数变异的神器

Control-Freec 既可以检测拷贝数变异CNV，还可以分析杂合性缺失LOH。官网如下

03

vcf文件

VCF 是生物信息分析中非常重要的一种格式。主要用来描述基因组突变的信息，无论是检测出来的 SNP，indel，cnv，还是 SV，都可以存储格式都为 vcf 格式。从比对生成的 bam 文件中，将潜在变异信息筛选出来，就是 vcf 格式。vcf 是一种列表格式，里面包含很多的内容。需要掌握每一列的信息，并能使用相对应的软件对 vcf 进行处理。处理 VCF 格式软件主要包括 bcftools，vcftools，gatk，python pyvcf，plink 等。

04

10X单细胞（10X空间转录组）CNV分析之inferCNVpy

现在运行 infercnvpy.tl.infercnv()。本质上，该方法通过染色体和基因组位置对基因进行分类，并将基因组区域的平均基因表达与参考进行比较。原始的 inferCNV 方法使用上下游50个基因作为窗口，但更大的窗口大小可能有意义，具体取决于数据集中的基因数量。

04

27分Nature子刊的生信分析是怎的高度？

今天给大家带来的是2020年3月发表在Nat Genet（IF=27.603）杂志上的文章“Pan-cancer analysis of whole genomes identifies driver rearrangements promoted by LINE-1 retrotransposition”。文章中作者通过泛癌数据分析了LINE-1 逆转座促进各种类型的重排。

01

PNAS：人类大脑性别间差异研究—基于结构、功能及转录组多模态分析

导读人类大脑在许多认知以及行为等方面都表现出明显的性别差异，这些差异具有可重复性，而且更为重要的是，这些差异或许可以反映不同性别间大脑内部局部组织的不同。这些差异的稳定性、起因以及产生的影响被广泛、热烈的讨论，但却没有被细致的研究过。加之最近在啮齿类动物中的一系列研究建立了性别差异在神经生理学上的理论基础：1）局部灰质体积（regional gray matter volume,regional GMV）的性别差异稳定的分布在大脑皮层以及一些经典的皮下核团；2）与社交以及生殖行为有关的神经环路在局部GMV差异分布中占据主导地位；3）性染色体的基因表达与GMV差异模式具有耦合关系。这篇发表在美国科学院院报（PNAS）题为“Integrative structural, functional, and transcriptomic analyses of sex-biased brain organization in humans”的文章，便是基于啮齿类动物中的研究基础，针对在人类大脑中该类问题的研究空白，对性别差异从脑结构、脑认知活动以及基因表达多模态多尺度做了全方位细致的探究。下面即对本文作解读。

03

NIPT/CNVseq/WES 数据如何更精确地区分性别

CNVseq一般针对的是流产物或者全血白细胞，是比较纯的组织样本，一般用比到Y染色体上的总reads数占总常染色体 reads数的比例，人为设置一个cutoff就能很轻易的区分性别。WES一般也针对的是全血白细胞，也可通过此方法来准确分性别。但NIPT数据一般测序量（5-8M single end reads）比CNVseq还少，在胚胎DNA含量较低的时候区分性别方面，如果再采用固定cutoff的方法，可能会因为没有屏蔽X和Y的同源区域或者非唯一比对区域，经常会出现性别分的不准的问题。

03

PennCNV:利用SNP芯片检测CNV

通过SNP芯片来检测CNV，对应的分析软件有很多，PennCNV就是其中之一，该软件通过隐马可夫模型来检测CNV, 官网如下

04

CNVseq检测，交付报告只需3~5个自然日

CNVs，即拷贝数变异，它不仅与人类的多态性相关。而且，极有可能造成包括生长发育迟缓、行为言语障碍以及神经发育迟缓、自闭症谱系障碍等神经精神疾病在内的各种疾病！！！

02

基于表达谱的拓扑数据分析识别癌相关的遗传变异

Identification of relevant genetic alterations in cancer using topological data analysis

02

玩转基因组浏览器之查看CNV分析结果

在TCGA项目中，使用Affymetrix SNP 6.0芯片来分析CNV, 首先使用DNACopy这个R包来计算拷贝数，然后用GISTIC2根据CNV来评估基因的变化情况，识别loss还是gain, 流程示意如下

01

【直播】我的基因组48:我可能测了一个假的全基因组

背景知识男性只有一条X染色体和一条Y染色体，所以，理论上它们上面的SNV都应该是纯合的！ X,Y除了同源区域外，其它地方差异很大。所以在女性样本里面即使是混入了极低量的男性样本，也很容易检测出来。同理，男性样本里面混入了女性样本，会给男性带来大量的X染色体的杂合SNV，也很容易检测出来。我的测序结果我对前面步骤call到的vcf格式的变异位点文件进行了X,Y染色体的简单统计，代码如下： cat jmzeng.freebayes.vcf |grep -w 'chrY'|grep -v "^#" |cu

可视化工具 | HiBrowser：用于实时Hi-C数据可视化的交互式动态浏览器

Hi-C技术对高阶染色质结构进行全基因组研究正在成为理解基因调控机制的重要组成部分。可视化多组学数据并使用交互式浏览器进行直观分析成为一种强大且流行的方式。近日，《Briefings in Bioinformatics》发表了一个有效的序列和染色质相互作用数据显示浏览器——HiBrowser，用于可视化和分析Hi-C数据及其相关的遗传和表观遗传注释。

01

单细胞空间数据分析之CNV进化树

时光荏苒，2022年也即将结束，这一年，单细胞空间多组学技术进一步带领我们走入生物组织的微观世界。单细胞多组学的技术发展让研究人员可以从单个细胞的维度进行遗传学、转录组学、蛋白组学等方面的深入解析，空间多组学则从细胞空间排布的角度帮助研究者洞悉细胞之间的相互协作及动态迁移，单细胞空间技术的联合使用已经成了科研手段的研究利器，从更深层次的方面解读发育、疾病等发生的生物学机制。

04

肿瘤多区域取样的进化分析六：复发的神经母细胞瘤表现频繁的RAS-MAPK通路突变

神经母细胞瘤是一种外周交感神经系统的小儿肿瘤。肿瘤的表现从自发退化到无法治愈的进展不等。尽管有广泛的治疗，如化疗、手术、放射治疗和免疫治疗，高风险神经母细胞瘤患者的存活率仍低于50%。在大多数患者中，可以观察到对治疗的初步反应，然而，这些患者中高达60%的患者随后复发，并伴有难治性肿瘤。一些遗传变异，包括MYCN扩增和染色体节段性改变，如1p缺失、11q缺失或17q扩增，与预后不良有关。然而，尚不清楚哪些遗传缺陷与疾病复发有关。

05

TCGA Copy Number Portal:肿瘤拷贝数变异数据中心

肿瘤的形成过程中涉及到了多种类型的基因组变异，比如点突变，拷贝数变异，基因融合等等，肿瘤和遗传病不同，各种基因组变异是后天形成的，所以在肿瘤研究中，关注的是体细胞上的基因组变异。

01

【生信文献200篇】25 2433个乳腺癌患者的173个基因的突变全景图

英文标题：The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes

03

如何使用bcftools

当然了，如何提问，就需要一点点背景知识啦，比如知道什么是变异位点，什么是过滤，然后就可以很简单的两个提问即可：

01

chromosome-territories:染色质疆域简介

人类基因组大小在3G左右，这么多的DNA线性排列，完全展开其长度可以达到2米，而细胞直径是微米级别的，这意味着DNA在细胞核内肯定是高度折叠的。众所周知，结构决定功能，这样的空间结构势必对于生命体复杂的功能造成了影响。

02

详解R语言中的遗传算法

前言人类总是在生活中摸索规律，把规律总结为经验，再把经验传给后人，让后人发现更多的规规律，每一次知识的传递都是一次进化的过程，最终会形成了人类的智慧。自然界规律，让人类适者生存地活了下来，聪明的科学家又把生物进化的规律，总结成遗传算法，扩展到了更广的领域中。本文将带你走进遗传算法的世界。目录遗传算法介绍遗传算法原理遗传算法R语言实现 1. 遗传算法介绍遗传算法是一种解决最优化的搜索算法，是进化算法的一种。进化算法最初借鉴了达尔文的进化论和孟德尔的遗传学说，从生物进化的一些现象发展起来，这些现象

使用IMPUTE2进行基因型填充

需要两个基本元素，第一个是检测样本的分型结果，即图中所示的study genotypes, 第二个元素称之为reference panel, 对应图中的reference haplotypes, 利用高密度的reference panel对检验样本为覆盖到的SNP位点，或者缺失的分型结果进行填充，对应图中问号表示的位点。

02

遗传算法工具箱约束怎么输入_遗传算法中怎么添加约束条件

网上有很多博客讲解遗传算法，但是大都只是“点到即止”，虽然给了一些代码实现，但也是“浅尝辄止”，没能很好地帮助大家进行扩展应用，抑或是进行深入的研究。

01

又一个ATAC分析的pipeline:PEPATAC

PEPATAC是基于python开发的一个ATAC数据分析的pipeline, 网址如下

01

这篇最近发在Nature上的肿瘤进化有什么不一样？

今天跟大家分享的是2020年2月发表在Nature(IF=43.07)杂志上的一篇文章。文章中作者讨论了2,658种癌症的进化史，说明了早期癌症检测的可能性。

02

「Workshop」第二十五期 HiC数据分析简介

Hi-C是研究染色质三维结构的一种方法。Hi-C技术源于染色体构象捕获（Chromosome Conformation Capture, 3C）技术，利用高通量测序技术，结合生物信息分析方法，研究全基因组范围内整个染色质DNA在空间位置上的关系，获得高分辨率的染色质三维结构信息。

02

circos 可视化手册-plots篇

不论是highlights还是links,展示的都是染色体上某段区域的信息，在实际的数据中，除了区间信息外，还会有该区间对应的数据信息，比如测序深度等信息。对于这种信息，通常我们会使用散点图，折线图等图表来展现。

02

表观遗传分析5 HI-C

高通量染色体构象捕获技术（High-throughput chromosome conformation capture，Hi-C）是一种用于研究基因组中染色体的三维结构分子生物学技术。它通过对DNA进行特殊的修饰和捕获，然后对修饰后的DNA进行测序，来确定基因组中不同区域之间的相互作用。这种技术可以帮助研究人员了解基因的功能和调控，以及在染色体中的不同位置的基因之间相互作用。

01

生信中的可变剪切噪起来

检索关于TCGA可变剪切的相关文献。虽然总的数量并不是很多，但是其在2019年猛增为49，在2020年的上半年发文数量也达到了2019的一半，说明可变剪切研究在生信方面的热度有上升的趋势。

05

CNV-seq案例分析 | CMA阴性？试试CNV-seq！

目前，检测胎儿及婴幼儿是否患有染色体病或基因组病的方法主要包括染色体微阵列分析（CMA）和低深度全基因组测序（CNV-seq）。

03

R语言中的遗传算法

前言人类总是在生活中摸索规律，把规律总结为经验，再把经验传给后人，让后人发现更多的规规律，每一次知识的传递都是一次进化的过程，最终会形成了人类的智慧。自然界规律，让人类适者生存地活了下来，聪明的科学家又把生物进化的规律，总结成遗传算法，扩展到了更广的领域中。本文将带你走进遗传算法的世界。目录遗传算法介绍遗传算法原理遗传算法R语言实现 1. 遗传算法介绍遗传算法是一种解决最优化的搜索算法，是进化算法的一种。进化算法最初借鉴了达尔文的进化论和孟德尔的遗传学说，从生物进化的一些现象发展起来，这些现象

07

Science经典：植物基因组的同线性与共线性分析思路

随着时间的推移，真核生物的基因组在基因同线性（synteny）和共线性（collinearity）方面存在一定程度的差异。这些差异在不同生物类群之间表现出不同的特征。

03

Nature重大突破：科学家成功完成Y染色体测序，标志着人类基因组的完整解读

这张扫描电子显微镜图像显示了一对连接的Y染色体（右）与一对连接的X染色体相比，在细胞分裂前期时重复的Y染色体（右）小了多少。图片来源：BIOPHOTO ASSOCIATES/SCIENCE SOURCE

01

一作详解 | Science 封面：酵母基因组人工染色体再造

深圳华大生命科学研究院、爱丁堡大学、约翰•霍普金斯大学、纽约大学、清华大学、天津大学等多家单位，通过开发酿酒酵母基因组序列设计与染色体构建技术，从头设计与全合成了酿酒酵母II号染色体（synII，长770 Kb），并成功导入酵母细胞，合成酵母菌株展现出与野生型高度相似的生命活性。此次国际协作组对真核生物酿酒酵母基因组的成功改造，是继人工支原体后人工生命创造领域又一里程碑式进展。该成果在2017年3月10日以封面专刊文章的形式发表于国际顶级学术期刊Science，入选2017年度中国科学十大进展，以下是共同第一作者王云博士详细解读。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭