许多生物的遗传信息(或基因组)由长长的一串遗传密码组成,这些遗传密码以DNA(脱氧核糖核酸)的形式存在,DNA是编码生命的分子,被包装成染色体。人类有23对染色体,每对染色体中的一条来自母亲,一条来自父亲。染色体包含基因,这些基因是遗传密码的可定位区域,编码一个可遗传信息单元,但是并非所有的遗传序列都属于基因区域,并且染色体的大部分由称为非编码DNA的中间遗传物质组成。每个染色单体有两条链,每条链由一个可以由字母A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)表示的核苷酸序列组成。这些核苷酸链以互补方式配对(A与T配对,C与G配对),这样每个链包含相同的信息,因此仅考虑其中一个链。
在对变异位点如 vcf 文件进行注释之后,注释结果往往会给出变异位点的描述,即该位点是位于哪一个基因的哪一个功能元件具体的哪一个(几个)碱基上发生了什么变化。这往往需要简洁一点的描述格式。标准的变异位点描述的格式为 prefix.position(s)_change 。一般来说,所有的变异应该在 DNA 水平上进行描述,但也可以另外给出RNA或者蛋白质水平的描述。
几年前,甚至研究人员也不愿使用DNA来存储数据,因为这看起来过于科幻,并没有任何实用价值。今天,我们可以使用正确的软件和生物化学模块扩展PostgreSQL,并在DNA上运行SQL。
之前介绍很多基于序列分析的数据库的时候,都会提到FASTA序列。之后也会遇到很多基于序列分析的数据库。所以今天就把基因序列的格式单独拎出来说一下。
还记得电影《黑客帝国》中,当 Neo 释放他的全部力量时,周围的世界以各个方向运行的代码行显示的场景吗?如果你能够以这种方式观察周围的世界,则坐在你旁边的人显示为一个网页,你可以单击右键以检查元素和找到隐藏的源代码。
1、基因序列:DNA序列或基因序列是使用一串字母表示的真实的或者假设的携带基因信息的DNA分子的一级结构。
标题:Coming of age: ten years of next-generation sequencing technologies
今天为大家介绍的是来自Stephen Mann, Chunhai Fan和Tom F. A. de Greef团队的一篇综述论文。DNA计算和DNA数据存储是新兴领域,它们为信息技术和诊断学解锁了新的可能性。这些方法利用DNA分子作为计算基质或存储介质,提供了纳米级的紧凑性,并能在非传统介质(包括水溶液、水包油微乳液和自组装的膜化隔室)中操作,这些都是超越传统基于硅的计算系统的应用。为了构建一个能够处理和存储分子信息的功能性DNA计算机,需要持续发展计算和数据存储的策略,并且桥接这两个领域之间的差距。
核苷及核苷酸是机体内的一种重要的内源物质,参与细胞的多种生命进程,如 DNA 和 RNA 合成,信号转导及代谢等。核苷及核苷酸类似物是人工合成的,经过一定化学修饰的物质,可以模拟机体内核苷及核苷酸,参与细胞调控,如阻断细胞分裂或病毒复制等。核苷及核苷酸类似物是治疗癌症及病毒感染的一类重要药物,另外在高尿酸血症、免疫抑制,神经及心脏保护方面也有一定的治疗效果。核苷及核苷酸类似物在细胞中发挥作用的机制主要体现在三方面:1. 在生化反应中作为伪底物,抑制核苷酸从头合成的相关酶,干扰 dNTPs 库,从而抑制 DNA 的复制。2. 掺入 DNA 或 RNA,中断 DNA 和 RNA 链的延伸。3. 抑制核酸合成的相关酶,如 DNA 聚合酶和核酸还原酶等,从而抑制核酸大分子的合成和修复。
比如:我只需要长度300bp左右的分子。那么,电泳后,在切胶过程中,只切300bp处的分子即可。
1953年4月,Watson和Crick关于DNA双螺旋结构的文章发表于Nature,成为生物学研究的里程碑。此后,生命科学进入了DNA解密的时代。道德经所言“道生一,一生二,二生三,三生万物”,这“三生万物”需要的竟然仅仅是四种碱基的排列组合。生命的秘密藏在DNA序列中,首要任务,便是测出这序列内容。1970年,吴瑞先生建立了位置特异性引物延伸的测序方法,开了DNA测序技术的先河。随后在1975年,Sanger建立了自己的测序方法。1977年Gilbert等人建立了化学降解法,同年,Sanger改进了之前的方法,确立了日后第一代测序的主流方法:Sanger测序法。
SNP(single nucleotide polymorphism),单核苷酸多态性,在基因组上由单个核苷酸变异形成的遗传标记,一般指变异频率大于1%的单核苷酸变异。
7个WGS数据,怎么着也得人民币5万块钱!数据在 https://www.ncbi.nlm.nih.gov/bioproject/PRJNA632854 :
选自berthub.eu 作者:Bert Hubert 机器之心编译 机器之心编辑部 新冠疫苗和「源代码」,有什么关系?来自荷兰的中年程序员,对辉瑞 BNT162b2 疫苗进行了「逆向工程」,让我们看到了计算机科学与生物学之间的有趣联系。 前几天,一位程序员的作品在推特火了。 我们都知道,计算机程序是用代码编写而成的。最底层会有机器代码和汇编语言,诸如 C、Python 之类的高级语言让人们更容易理解。其实,自然界也有源代码,它的形式是「DNA 和 RNA 字符串」,其中就包含着构成生命元素的代码。
多序列比对是对3条以上(包括3条)DNA,RNA或蛋白序列进行比对。基础仍然是双序列比对。 具体就是对多条序列插入空位,是的插入空位后的全局比对结果有相同的长度,并且结果中不能出现一列全部是空位(也就是每条序列的同一个位置都没用字母)。
核苷(酸)类似物(Nucleos(t)ide Analogue)是最大的一类抗病毒药物,也是最重要的抗病毒药物。治疗疱疹(HSV)的阿昔洛韦(Acyclovir),第一种治疗艾滋病(HIV)的药物齐多夫定(Zidovudine),治疗乙肝(HBV)的恩替卡韦(Entecavir)以及Gilead的明星丙肝药(HCV),史上最贵的药片索菲布韦(Sofosbuvir)都属于这一类药物。除了抗病毒,核苷(酸)类似物还可以用于治疗癌症。
高通量测序平台产生的序列叫做reads,每一条由A,G,T,C组成的序列都叫做一条read。
在KTV对朋友调侃道:“五音不全的你还非得做麦霸,哪儿来的自信!?”,谁知他却更加来劲儿地说:“骨子里来的!”。一直很佩服他这种“不要脸”的娱乐精神,后来发现他这种来自骨子里的自信不无道理,因为这自信来自基因。
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
第二代测序(Next-generation sequencing,NGS)又称为高通量测序(High-throughput sequencing),是基于PCR和基因芯片发展而来的DNA测序技术。我们都知道一代测序为合成终止测序,而二代测序开创性的引入了可逆终止末端,从而实现边合成边测序(Sequencing by Synthesis)。二代测序在DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记(一般为荧光分子标记)来确定DNA的序列,现有的技术平台主要包括Roche的454 FLX、Illumina的Miseq/Hiseq等。由于在二代测序中,单个DNA分子必须扩增成由相同DNA组成的基因簇,然后进行同步复制,来增强荧光信号强度从而读出DNA序列;而随着读长增长,基因簇复制的协同性降低,导致碱基测序质量下降,这严格限制了二代测序的读长(不超过500bp),因此,二代测序具有通量高、读长短的特点。二代测序适合扩增子测序(例如16S、18S、ITS的可变区),而基因组、宏基因组DNA则需要使用鸟枪法(Shotgun method)打断成小片段,测序完毕后再使用生物信息学方法进行拼接。
Frederick Sanger 是一位1918年出生于美国的生物化学家,曾经两度获得诺贝尔化学奖 。上世纪70年代末,他提出快速测定脱氧核糖核酸(DNA)序列的技术“双脱氧终止法”,也被称作“Sanger法”。
突变是指发生在遗传物质上的变异。广义上突变可以分为两类:染色体变异(chromosome aberration),即染色体数目和结构的改变;基因突变(genemutation),即基因的核苷酸顺序或数目发生改变。狭义突变通常特指基因突变,它包括单个碱基改变所引起的点突变(point mutation),或多个碱基的缺失、重复和插入。
CRISPR系统的关键在于能够识别可以高效切割的目标位点,以及候选gRNA在其他基因组位置几乎或没有切割的目标位点。位点导向突变的靶向效率高度依赖于sgRNA,并且沿着靶标DNA方向微小的位置变动足以以不可预知的方式改变sgRNA的功能。因此,设计有效的sgRNA用于可靠的基因敲除实验至关重要。理想的gRNA应该最大限度地提高靶上活性(诱导效率),同时最大限度地减少潜在的脱靶效应(诱导特异性)。近年来,涌现出一些辅助gRNA设计的计算工具,这些工具旨在帮助研究人员选择可用的最佳靶点。本文关注范围仅是利用深度学习方法解决该问题的计算工具。
TF: transcription factor转录因子 TFBS: transcription factor binding site转录因子结合位点 TFBS是序列内的location,TF特异结合在这里,这个site有这种特点
大家好,今天跟大家分享一篇Nature上的文章,本文的通讯作者是威兹曼科学研究所分子遗传学系的Rotem Sorek教授,他们课题组的主要研究方向是细菌与噬菌体的相互作用以及RNA介导的微生物调控。本工作主要研究了原核生物viperins的抗病毒机制,扩展了天然抗病毒化合物的种类。
Brian Burke, Research VP, Yefim Natis, Distinguished VP Analyst, Avivah Litan, Distinguished VP Analyst, Nick Heudecker, VP Analyst, Svetlana Sicular, VP Analyst, Sylvain Fabre, Senior Director Analyst.
早在1954年,Whitfeld等就提出了测定多聚核糖核苷酸链的降解法,该方法利用磷酸单酯酶的脱磷酸作用和高碘酸盐的氧化作用从链末端逐一分离寡核糖核苷酸并测定其种类。目的就是想通过这种一个一个“数”的方法来得到DNA的碱基顺序。
CY 为花菁 (Cyanine) 的缩写,经典的菁染料含有两个含氮杂环,分子内部含有由甲川基 (CH)n 组成的共轭链,n 可为奇数或偶数。吸光度和荧光波长可通过选择聚次甲基桥的长度来控制:越长的花菁素具有较高的吸光度和发射波长 (图 1 所示)。根据链中的碳原子数,菁类由甲川基被分为一甲基 (CY1,n=0)、三甲基 (CY3,n=1)、五甲基 (CY5,n=2) 和七甲基 (CY7,n=3)。
传统的药物主要作用于相应的分子靶点 (如激酶、受体、离子通道和转运体等蛋白质靶标)、生物学途径或细胞过程,从而达到治疗疾病的药理作用。小分子化合物和抗体是当前医疗用药的主要形式和药物开发的方式。但是只有 10-14% 的蛋白质可以成为小分子化合物或抗体的作用靶点。这限制了小分子化合物和抗体在药物开发中的可能性。
利用纳米技术,该DNA机器人可以广泛用于生物医药等多种领域。 15日,《科学》杂志上有一篇论文详细介绍了一种由单链DNA构成的机器人Nanobot,该机器人可以自主地对特定分子进行拾取,然后将其放在特
本次报道论文为发表于Nature Communications的Predicting base editing outcomes with an attention-based deep learning algorithm trained on high-throughput target library screens。该文章是苏黎世联邦理工学院的Kim F. Marquart等人的研究成果:在该项研究中,作者对包含 28,294 个慢病毒整合基因序列的文库进行了腺嘌呤和胞嘧啶碱基编辑器的广泛分析,并建立了 BE-DICT,这是一种基于注意力的深度学习算法,能够高精度地预测碱基编辑结果。
研究人员开发了一种预测DNA甲基化位点的机器学习算法可以帮助识别致病机制。该论文2020年8月3日发表在"Nature Machine Intelligence"上。
生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
今天为大家介绍的是来自Maria Duca团队的一篇论文。在化学生物学和药物发现领域,开发创新方法以识别RNA结合物引起了巨大关注。尽管针对细菌核糖体RNA的抗生素已经上市数十年,但对RNA靶向的重新关注反映了人们对更好地理解涉及RNA的复杂细胞内过程的需求。在这个背景下,小分子是用来探索RNA的生物学功能、验证RNA作为治疗靶点的工具,它们最终有可能成为新药。尽管近期取得了进展,但理性设计特定的RNA结合物需要更好地理解与RNA靶标发生的相互作用,以达到期望的生物学响应。在这篇综述中,作者讨论了接近这一未充分探索的化学空间的挑战。
【新智元导读】在发表于《科学》(Science)的研究中,研究者 Yaniv Erlich 和 Dina Zielinski 描述了一种可以最大化 DNA 分子的数据存储能力的新编码技术。该系统能够在一克DNA中存储215PB(2.15亿GB),原则上可以将人类记录的所有数据存储在几辆卡车大小和重量的容器中。 人类面临着数据存储的难题:过去2年中产生的数据比之前人类历史产生的全部数据还要多。信息的洪流可能很快就会超过硬盘的承受力。现在好了,研究人员称,他们已经找到了一种新的方法来编码DNA中的数字数据,以
罕见病是指流行率很低、很少见的疾病,一般多为慢性、严重性疾病,常危及生命。《中国罕见病定义研究报告 2021》报告中首次提出了将“新生儿发病率小于 1/万、患病率小于 1/万、患病人数小于 14 万的疾病”列入罕见病。
这项来自瑞士苏黎世联邦理工学院和以色列Erlich Lab的神奇研究,首次将DNA作为信息存储工具,注入到了日常物品当中。
达尔文的断言:“目前关于生命起源的思考纯粹是废话”,现在已经不再成立。通过综合生命起源(OoL)研究,从其开始到最近的发现,重点关注(i)原生物化学合成的原理证明和(ii)古代RNA世界的分子遗迹,我们提供了科学对OoL和RNA世界假说的全面最新描述。基于这些观察,我们巩固了这样的共识:RNA在编码蛋白质和DNA基因组之前演化,因此生物圈从一个RNA核心开始,在RNA转录和DNA复制之前产生了大部分的翻译装置和相关RNA结构。这支持了这样的结论:OoL是一个渐进的化学演化过程,涉及一系列介于原生物化学和最后的普遍共同祖先(LUCA)之间的过渡形式,其中RNA起到了核心作用,沿着这条路径的许多事件及其相对发生顺序是已知的。这一综合性合成的本质还扩展了以前的描述和概念,并应有助于提出关于古代RNA世界和OoL的未来问题和实验。
扩增子测序在临床基因检测中有广泛应用,合理的 Panel 设计非常重要,而 Panel 设计最终要落地,精心设计引物就是重中之重了。
今天为大家介绍的是来自Frank DiMaio团队的一篇论文。蛋白质-核糖核酸(RNA)和蛋白质-脱氧核糖核酸(DNA)复合体在生物学中扮演着至关重要的角色。尽管近年来在蛋白质结构预测方面取得了显著进展,但预测没有同源已知复合体的蛋白质-核酸复合体的结构仍是一个基本未解决的问题。在这里,作者将RoseTTAFold机器学习蛋白结构预测方法扩展应用,以预测核酸和蛋白质-核酸复合体。作者开发了一个网络系统,RoseTTAFoldNA,它能够快速生成带有可信度估计的蛋白质-DNA和蛋白质-RNA复合体的三维结构模型。
又一次,计算机科学家和生物学者站在一起,对抗人类向内探索的挑战——用机器学习预测基因编辑 CRISPR 中的脱靶效应。
所有系统发育推断方法都需要同源数据集作为输入。因此,当核苷酸序列用于系统发育分析时,第一步通常是推断不同类群序列中的哪些核苷酸彼此同源,以便这些核苷酸之间的差异仅源于序列进化中发生的变化。不同序列的核苷酸之间的同源性推断最常通过属于“多序列比对”类别的方法来完成。
Single-Cell RNA Sequencing and Its Combination with Protein and DNA Analyses
FASTX-Toolkit 最初是由 Hannon Lab 开发的一个为处理高通量测序数据(尤其是从 Illumina 测序平台获得的数据)设计的软件包。这个工具包包含了一系列命令行工具,用于对 FASTA 和 FASTQ 文件进行预处理操作,如质量控制、数据过滤、数据转换等。其特性包括:
各位芝士的朋友好,今天我们继续聊我们的SNP话题,前面两讲我们分享了SNP发生的位置,发生的类型以及SNP的命名,并且特意提到了SNP的两个数据库,今天我们来学习一下这两个数据库的使用。
聚合酶链式反应(Polymerase Chain Reaction,PCR)是80年代中期发展起来的体外核酸扩增技术。它具有特异、敏感、产率高、快速、简便、重复性好、易自动化等突出优点;能在一个试管内将所要研究的目的基因或某一DNA片段于数小时内扩增至十万乃至百万倍,使肉眼能直接观察和判断;可从一根毛发、一滴血、甚至一个细胞中扩增出足量的DNA供分析研究和检测鉴定。过去几天几星期才能做到的事情,用PCR几小时便可完成。PCR技术是生物医学领域中的一项革命性创举和里程碑。
与现有的DNA编辑技术的原理一样,研究团队也是依据DNA链中核苷酸的配对方式来实现对DNA分子的编辑和控制的。 达·芬奇的著名画作《蒙娜丽莎》发展至今,已经有很多版本了。 憨豆版的: 比V的: 还有抽烟的蒙娜丽莎: 蒙娜丽莎要被玩坏了,但科技研究者们依然不放过她。 加州理工学院的研究人员开发了新玩法,用DNA链折叠技术组合出了一幅迷你抽象版蒙娜丽莎拼图,宽度只有100纳米。 乍一看,像极了某蓄着络腮胡的大汉...但,我们今天的重点不在“玩”,而是动图中操作本身意味着什么? 这项技术可以让材料根据人们的需求自
大量的多组学分析,如多维基因组学和蛋白质基因组学分析,已被证明有利于获得对细胞事件的全面了解。这一优势促进了单细胞多组学分析的发展,使细胞类型特异性基因调控得以检测。
领取专属 10元无门槛券
手把手带您无忧上云