生信技能树-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

生信技能树

专栏成员

1974

文章

3987230

阅读量

1167

订阅数

T细胞状态打分R包应用于单细胞转录组数据

工具开发可视化框架数据

我们首先了解一下打分工具的本质，首先是带有生物学功能意义的基因集合的数据库资源，其次是统计学公式。前者可以是免疫或者代谢等基因集，主要是来源于msigdb等数据库。后者统计学公式对大家来说最容易理解的就是gsea或者gsva啦。比如我前两天介绍的：单细胞GSVA分析专用R包

生信技能树

2024-07-26

2230

如何让更多人宣传你的科研成果?

论文模型数据数据库产品

中国地区在CNS期刊（即《Cell》、《Nature》和《Science》）上发表的文章情况近年来一直呈上升趋势：

生信技能树

2024-07-26

910

生信方向的博士找博士后机会不能只看ngs数据处理技术啊！

数据处理脚本模型人工智能自动化

因为现在有了人工智能大模型，基本上一年经验的工程师跟三五年经验的不会有什么本质的区别。。。。

生信技能树

2024-07-26

1240

转录组测序的表达量的两个归一化方向会影响差异分析吗

对象函数数据 list 变量

如果是使用deseq2这样的包进行转录组测序的表达量的差异分析需要的是最原始的整数的counts矩阵即可，如果是做表达量热图，通常是使用归一化后的矩阵，可以是两个方向都做。如果仅仅是考虑文库大小就是cpm和rpm，如果同时考虑基因长度就是 FPKM（Fragments Per Kilobase of transcript per Million mapped reads），以及tpm，让我们来理解一下：

生信技能树

2024-07-26

970

2024-06数据挖掘答疑

变量表格函数镜像数据挖掘

Q2:Rstudio里第36行代码工具包运行时报错，library(clusterProfiler), 跳过这个剩下的都过了。截图如下

生信技能树

2024-07-26

840

如果销售会生信

基础数据网络芯片异常

皮尔森相关性系数一直是我对转录组数据评价的重要指标之一，但是最近结题的一个smartseq让我对皮尔森相关性系数有了进一步认识。技术给我发了该项目的结题报告，相关性热图如下：

生信技能树

2024-07-26

1190

不同泛癌单细胞数据挖掘研究的髓系免疫细胞细分亚群一致性如何

cell mono 数据图表数据挖掘

但是能达到cns级别实在是太难了，刚刚刷到了云南大学的髓系免疫细胞的泛癌研究，就只能是发表在NC上面，标题是：《A single-cell pan-cancer analysis to show the variability of tumor-infiltrating myeloid cells in immune checkpoint blockade》，纳入的样品数量是a total of 192 tumor samples from 129 patients，只关心里面的tumor-infiltrating myeloid cells (TIMs) 即可，涉及到8种癌症。如下所示的髓系免疫细胞细分亚群：

生信技能树

2024-07-26

1540

北科大本科生科研团队在Nature Communications上发表论文-转录组学分析全生态算法框架OmicVerse

数据分析框架论文数据算法

单细胞RNA测序（scRNA-seq）和Bulk RNA测序（RNA-seq）是探索细胞异质性、发育分化和疾病机制的重要技术。由于测序平台的技术限制以及酶解过程造成的细胞丢失，某些细胞类型在单细胞测序中有时会被遗漏，例如足细胞、中间祖细胞、神经元等。因此，开发能够应对单细胞数据中“遗漏”情况的算法工具，对于推动单细胞组学分析具有极其重要的意义。

生信技能树

2024-07-26

1940

我们这篇Nature Communication背后的故事（第一作者解读）

面试算法 communication 教程框架

我应该是大二上的时候开始接触生物信息学，那会儿单细胞测序刚刚兴起，生信还是一片蓝海，那会儿你会一个RNA-seq的分析，都能被课题组当成是一个宝贝。我算是半个科班出身，得益于计算机的双学位，我在接触生物信息学的时候，没有遇到太大的门槛，调包-分析，一气呵成。

生信技能树

2024-07-26

2510

学单细胞数据分析之前得掌握生物信息学算法吗？

数据分析论文数据数学算法

然后甩了一个很古老的在线书籍：https://compeau.cbd.cmu.edu/online-education/bioinformatics-algorithms-an-active-learning-approach/

生信技能树

2024-07-26

1170

生存分析新技能:小洁老师带你全代码实现生存曲线与风险表的完美融合

搜索 data facet table 函数

为了让代码具有可重复性，保存图片也最好是用代码来实现，而不是用点鼠标的方式。最近有一个需求是将生存曲线和表格一起保存，尝试了经典的三段论、ggsave、图片数据类型转换、cowplot包的recordPlo函数都没能实现我的目的。恰好昨天是生信技能树的福利：每月1次的答疑时间。那就求助小洁老师来解决问题吧，小洁老师很快就找到了解决办法，实在是太厉害啦！下面是解答过程：

生信技能树

2024-07-05

1340

单细胞转录组可以这样简单计算相关性吗

解决方案数据算法统计数据挖掘

各种数据挖掘文章本质上都是要把目标基因集缩小，比如表达量矩阵通常是2万多个蛋白编码基因，不管是表达芯片还是RNA-seq测序的，采用何种程度的差异分析，最后都还有成百上千个目标基因。如果是临床队列，通常是会跟生存分析进行交集，或者多个数据集差异结果的交集，比如：多个数据集整合神器-RobustRankAggreg包，这样的基因集就是100个以内的数量了，但是仍然有缩小的空间，比如lasso等统计学算法，最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略方向，有点类似于人工选择啦，通常是可以往热点靠，比如肿瘤免疫，相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析，仅仅是拿着几千个免疫相关基因的表达矩阵即可。最近比较热门的有：自噬基因，铁死亡，EMT基因，核受体基因家族，代谢基因。还有一个最搞笑的是m6a基因的策略，完全是无厘头的基因集搞小，纯粹是为了搞小而搞小。目前单细胞转录组大行其道，所以很多人喜欢使用公共的单细胞转录组数据集来缩小基因范围。学员在微信交流群分享了一个2024年5月的单细胞数据挖掘文章，标题是：《Single-cell combined with transcriptome sequencing to explore the molecular mechanism of cell communication in idiopathic pulmonary fibrosis》，研究者们重新分析了 GSE122960 这个单细胞转录组数据集，主要是第一层次降维聚类分群后，提取了巨噬细胞的特异性基因，然后走了随机森林生存分析算法，得到了 five most related key genes (CD163, IFITM2, IGSF6, S100A14 and SOD3). 有了目标的5个基因就可以很方便的各种简单分析来强调他们的生物学意义。比如去跟PDCD1基因看相关性：

生信技能树

2024-07-05

1950

这配色方案让人费解啊

配色数据数据可视化函数接口

randomcoloR和paletteer的使用方式类似，都提供了直观的函数来生成和应用颜色方案。randomcoloR 包可以生成随机的颜色方案，非常适合当你需要快速创建一个颜色方案时使用。

生信技能树

2024-07-05

1210

月更单细胞图表复现-文献1-第四和五集

数据图表变量函数配色

但是我们的文字版推文还在第一篇文献，前面已经分享了3个：胃癌单细胞数据集GSE163558复现(二)：Seurat V5标准流程，接下来是图表美化和单细胞亚群比例探讨：

生信技能树

2024-07-05

1760

单细胞水平的差异分析是不是就会合理的产出这样的火山图呢

数据挖掘 cell 可视化数据芯片

而且很明显，第一层次降维聚类分群其实是没办法区分 28200 epithelial cells (markers: EPCAM, KRT8, and KRT18), 里面的恶性与否的上皮细胞，这个时候需要走inferCNV等流程对上皮细胞进行恶性程度的判断。

生信技能树

2024-07-05

1360

单细胞转录组差异分析的8大痛点

模型数据统计工具论文

文献中提出的新范式（new paradigm）是直接在原始UMI计数上应用广义线性混合模型（GLMM），这种方法可以在执行批次校正、标准化、插补或特征选择之前，就对原始数据进行差异表达分析。这种方法保留了样本特定的结构和生物信号，并可以调整任何潜在的混杂因素，如批次、年龄、性别或种族，通过将它们作为固定效应的协变量纳入模型中。这种方法可能有助于克服上述一些挑战，提高单细胞转录组差异分析的准确性和可靠性。

生信技能树

2024-07-05

2260

拆分你的百万级别单细胞数据集后做降维聚类分群

对象数据数据挖掘自动化变量

因为纳入的数据集有点多，来源于12篇文章：232 single cell transcriptome samples (normal = 31; adjacent = 54; tumor = 148) ，分别来源于：

生信技能树

2024-07-05

1340

单细胞数据的GSVA

list 教程可视化数据芯片

Seurat v5 提示建议用AggregateExpression做伪bulk转录组分析，那个是用来求和的，目前查到的文献和教程都是使用平均值，这里就木有改动.

生信技能树

2024-07-05

2150

单细胞数据的二次分群

函数可视化数据 resolution 对象

Seurat里的FindClusters函数设置的resolution数值越大，分群的数量就越多，但是当单细胞数量太多的时候，会遇到resolution再变大，分群的数量也不再增加的情况。一次分群分不开时就会需要二次分群。

生信技能树

2024-07-05

1400

monocle单样本拟时序分析

数据网络对象工具排序

做拟时序分析是为了探索自己感兴趣的几种细胞之间的发育关系，一般不是用全部类型的细胞来做的。例如本例中选择了CD14和CD16单核细胞。

生信技能树

2024-07-05

1450

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态