sra数据库的文件的srr开头的ID需要以gsm开通的id进行中转才能对应到真正的样本处理信息。
是一个鼻咽癌临床相关疗效的研究。PMID: 37188668作者将患者一共分成了4组PR SD PD NE,还分成post 和 pre
NCBI Gene Expression Omnibus(GEO)是各种高通量实验数据的公共存储库,这些数据包括测量mRNA、基因组DNA和蛋白质丰度的单通道和双通道微阵列实验,以及非阵列技术,如基因表达序列分析(SAGE)、质谱蛋白质组数据和高通量测序数据。相比较TCGA数据库,因为数据是用户上传,所以更新较快
《circRNA芯片也是同样的差异分析》circRNA芯片也是同样的差异分析 (qq.com)
在生信分析过程中,经常遇到一个问题,芯片或者测序数据经常出现多个探针对应一个基因的情况。这个时候处理方法比较多,比如说比较常见的是均值或者最大值。本篇文章的主要目的是:介绍几种常见的处理方法:(1)均值(2)中位数(3)最大值(4)最小值(5)IQR(四分位间距,表达值范围)
这个包在bioconductor上,不要问我为什么install.packages("ChAMP")会失败,如果你有R包安装问题(包括任何R包安装问题),建议先看视频教程:
http://www.bioconductor.org/packages/release/bioc/vignettes/GEOquery/inst/doc/GEOquery.html
群主想看到,HCC,CHC,CC这3组,跟healthy的分开比较,然后3个火山图,3个热图。
我布置了一个作业,让大家可以尝试把cox可以火山图为什么gsea结果不行 这个里面的数据集 GSE101668 ,里面的表达矩阵,进行热图可视化,很多同学完成了作业,我随机挑选其中一个学徒的优秀笔记跟大家分享!
文章标题:《Mapping systemic lupus erythematosus heterogeneity at the single-cell level》
文章关心的是Atrial fibrillation (AFib) 这个疾病,纳入了病人样品和对照样品, 如下所示:
这两个方向都需要掌握基础的单细胞转录组数据集的降维聚类分群,如果这个环节有问题就会造成数据挖掘文章很尴尬,比如:2023的文章:《 Integrated analysis of single‐cell and bulk RNA‐sequencing identifies a signature based on NK cell marker genes to predict prognosis and immunotherapy response in hepatocellular carcinoma 》,下载了数据集GSE162616里面的3个样品的单细胞数据,数据分析其实中规中矩,使用我们给大家的示范代码,三五分钟就可以出结果,但是我看到了它里面的NK细胞数量非常多,不太符合基础认知,如下所示:
我多次在学徒作业强调了 3大基因芯片产商里面,就Agilent公司的芯片比较难搞,比如Agilent芯片表达矩阵处理(学徒作业) 以及 oligo包可以处理agilent芯片吗,这个作业难度非常高,不过我们生信技能树优秀讲师:小洁在繁重的授课压力下抽空整理了相关数据处理经验分享给大家,下面看她的表演:
甲基化分析应知应会的另一个R包:minfi,ChMAP包的很多的函数都有minfi包的影子。
最近查找资料的时候发现了前段时间被爆出来的利用 GSM 劫持+短信嗅探的方式来盗刷银行卡的案例,想起来一直想写一篇关于 GSM 的文章,故写此文来浅谈一下 GSM 网络的安全性。
一篇还算是比较新的CELL文章;《Spatiotemporal analysis of human intestinal development at single-cell resolution》 17个 individual embryos 的 77 个intestinal 样品,但是最后只有76,592 cells,因为他们采用了 ligonucleotide- tagged antibodies 这样的个性化的单细胞混合技术,数据在:https://www.ncbi.nlm.nih.gov/geo
大模型数学推理评测基本上都绕不开GSM8k测试基准,当前很多大模型在该数据集上都展现出较强的性能。然而,本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似的问题,而不是模型真正具备推理能力。
之前的推文详细介绍了ChMAP包从IDAT文件开始的甲基化数据分析流程,今天说一下从β矩阵开始的甲基化分析流程。
针对不同表达量矩阵格式,里面有大量的包可以选择。因为现阶段传统bulk转录组测序项目成为了标准品,无论大家在哪个公司测序都是几百块钱一个样品,简单的3分组的6个样品,就包括了定量和普通差异分析富集分析的服务,因为都是流程化的。随着国产华大基因的测序服务的崛起,以及illumina的更新换代,测序成本一降再降。2021的时候还是:明码标价之转录组常规测序服务(仅需799每个样品) ,到2022就是常规转录组测序加分析仅需单价549的12个样品起。
我注意到这个研究比较好的结合了传统bulk转录组数据和单细胞转录组数据,值得解读和推荐给大家。
前面我们发布了 明码标价之普通转录组上游分析,马上就有粉丝提出了需求,是数据集GSE165752,希望我们帮忙走转录组上游分析拿到其表达量矩阵。 但是其实人家本来就是提供了表达量矩阵,链接是:http
文章标题:《Resolving the fibrotic niche of human liver cirrhosis at single-cell level 》
文章标题:《Single-Cell RNA Sequencing of Peripheral Blood Reveals Immune Cell Signatures in Alzheimer’s Disease》
在论文 Construction of a Competitive endogenous RNA network and identification of potential regulatory axis in gastric cancer 中 ,他在生存分析的方法部分写到 A “survminer” package in R software to determine the best cut-off of the expression value for survival analysis。
目的一:解决不同网络站点之间的距离计算,比如要计算全网GSM共站址的LTE站点;
文章标题:《Single-cell RNA sequencing reveals cell heterogeneity and transcriptome profile of breast cancer lymph node metastasis》
文章标题:《Single-Cell Genomics Reveals a Novel Cell State During Smooth Muscle Cell Phenotypic Switching and Potential Therapeutic Targets for Atherosclerosis in Mouse and Human》
今天,给大家详细地介绍一下PyComplexheatmap(https://github.com/DingWB/PyComplexHeatmap) 中annotation的使用方法,也就是如何用python在热图中添加【行】/【列】注释信息。比如样本的疾病状态(肿瘤或者正常样本、年龄、性别、分型等)。
有学员提出来了一个问题,就是可以比较同样实验设计的表达量探索研究,一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况。其实这样的例子非常多,比如下面这样的展现方式:
由于CSFB业务涉及多个网元且存在license及算法开关控制,首先需要对CSFB参数进行核查。
关于GEO数据库认识和在线使用教程,参考文章:GEO数据库使用教程及在线数据分析工具。关于GEO数据库的R包:Bioconductor:GEOquery包,我们前面已经介绍,当然是官方案例,我们这里实战一下。
临床样品的特色是:通常是FFPE样本,在保存过程中往往造成RNA的断裂,不论是qPCR还是RNA-seq都难以进行精准的定量,这个时候Nanostring 仪器就是为了解决这些问题而诞生的。所以它在医院的流行程度很高,而我们要介绍的这篇文章就来自于医院科研人员,所以选择Nanostring就很容易理解啦。
于2021年3月发表在CELL杂志的文章, 标题是:《In vivo CD8+ T cell CRISPR screening reveals control by Fli1 in infection
那么实际上我们取3个癌症组织和3个血液组织做bulk转录组,对这两个分组找表达量差异,首先癌症组织里面特有正常上皮细胞,恶性上皮细胞,它们这两个单细胞亚群特异性高表达量的基因基本上在血液里面都不会有,肯定是在癌症对血液上调基因列表里面。为了更精确的差异,我们会放弃血液,选择癌旁组织,这样,理论上大家的单细胞亚群组成是类似的,当然了具体的单细胞亚群比例肯定是不一样的哦。这个时候,癌症对癌旁的bulk层面的差异,其实更多的是单细胞亚群占比不一样的导致的部分单细胞亚群特异性高表达量的基因凸显出来,当然了同时也会确实有一些基因在所有单细胞亚群里面都是癌症跟癌旁不一样,比如代谢基因干扰素基因等等。
Morphus实验室讲述了这样一个故事,在某周六的早上,你作为一家大公司的CSO(首席安全官),突然开始收到了雪片般飞来的消息。他们告诉你有游客在访问了你公司的网址后,浏览到了各种恶意内容。 这听起来像是公司网站出现了混乱,其实可能发生了更严重的的事情。当你深入研究后会发现,公司整个域名都被黑客劫持了,他们试图从你们客户那里窃取数据并且传播恶意代码。在本文中,我们会详细介绍针对上述场景的应急响应方案。另外,这一威胁对信息安全策略和安全布局的颠覆,我们可以用一些简单的方法进行缓解。 DNS基础知识 为
大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。
文献是2021发表在Nature Communications杂志的文章:《Individualized interactomes for network-based precision medicine in hypertrophic cardiomyopathy with implications for other clinical pathophenotypes》,链接是 https://pubmed.ncbi.nlm.nih.gov/33558530/
数据集是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE232309
其中有一个环节是需要比较seurat分群以及singleR的分群,这样就可以合理的命名啦。在jimmy老师的督促下,我使用老师的代码处理了GSE135927数据集,直接套用了jimmy老师的标准代码,希望对所有的初学者有帮助!
文章标题:《Single-cell reconstruction of the adult human heart during heart failure and recovery reveals the cellular landscape underlying cardiac function》
而对基因的划分不同组别,还可以是根据表达量的相似性,代表性的方法有层次聚类、K-means聚类、WGCNA、Mfuzz等,其中Mfuzz是专门的做转录变化的时间趋势分析的方法,核心算法基于模糊c均值聚类(Fuzzy C-Means Clustering,FCM),关于它的用法我们很早以前就分享了笔记,见:使用Mfuzz包做时间序列分析。最近交流群有粉丝提问他看到了一个Mfuzz做转录变化的时间趋势分析后对每个趋势分组挑一个代表性基因,是发表在NaTure PLaNTS 杂志的文章:《Jasmonate-mediated wound signalling promotes plant regeneration》,如下所示:
文章标题:《A single-cell atlas of the multicellular ecosystem of primary and metastatic hepatocellular carcinoma》
需要注意的是,在校正批次效应之前,表达量数据必须经过归一化操作,而且去除了缺失的基因,比如在80%的样本中没有表达量的基因。
游戏项目中有一个专门用于收集IOS崩溃的接口和查询页,运营/测试的同事有时候会通过查询页大概看一下每日崩溃的情况,经常会问iPhone6,1是什么,iPhone7,1又是什么设备?
发表在Cancer Cell 2019 Sep的文章 PMID: 31474569:《Single-Cell Transcriptomics in Medulloblastoma Reveals Tumor-Initiating Progenitors and Oncogenic Cascades during Tumorigenesis and Relapse. 》
文章标题:《Resolving the difference between left-sided and right-sided colorectal cancer by single-cell sequencing》
文章标题:《The neurons that restore walking after paralysis》
最近看到一个文章,标题是:《Comprehensive circular RNA profiling reveals the regulatory role of the circRNA-000911/miR-449a pathway in breast carcinogenesis》,发表于February 5, 2018 https://doi.org/10.3892/ijo.2018.4265 实验设计超级简单: 研究者首先在真实的病人队列做了5 tissues samples and contr
领取专属 10元无门槛券
手把手带您无忧上云