首页
学习
活动
专区
工具
TVP
发布

生信宝典

专栏作者
729
文章
1312399
阅读量
335
订阅数
Nat Biotechnol | 大神李恒团队开发不依赖于亲本的单倍型基因组组装工具hifiasm
对基因组相关研究而言,单倍型基因组组装是研究结构,进化与变异的最理想方式。随着长读长测序技术的进步,高质量单倍型组装已经成为了可能。然而,大部分组装算法的结果仍是混合多个单倍型的压缩序列,而不是完整的单倍型。对二倍体基因组而言,这种做法不可避免的损失了至少一半的单倍型信息。目前有一些组装算法对此进行了尝试,但是这类算法要么依赖难以获取的亲本信息进行分型 (trio-binning),要么无法生成高质量的单倍型组装结果。因此,如何在不依赖亲本信息的情况下,自动进行高质量的单倍型组装,是一个亟待解决的问题。
生信宝典
2022-04-19
7900
这21个不太好搜索其含义的特殊符号你都知道吗?
Linux命令中有一些常用符号,看到时不一定好查询它们的功能和含义,这里列举一些常见的符号和解释,欢迎大家补充完善。
生信宝典
2022-03-27
7870
这篇文献总结了常见的中式英语写法,来看看有没有中枪?
The Most Common Habits from more than 200 English Papers written by Graduate Chinese Engineering Students
生信宝典
2022-01-19
4100
随机森林预测发现这几个指标对公众号文章吸粉最重要
公众号后台记录了发表过文章的各项阅读指标包括:内容标题,总阅读人数,总阅读次数,总分享人数,总分享次数,阅读后关注人数,送达阅读率,分享产生阅读次数,首次分享率,每次分享带来阅读次数,阅读完成率。
生信宝典
2022-01-19
8890
机器学习算法 随机森林学习 之决策树
随机森林实际是一堆决策树的组合(正如其名,树多了就是森林了)。在用于分类一个新变量时,相关的检测数据提交给构建好的每个分类树。每个树给出一个分类结果,最终选择被最多的分类树支持的分类结果。回归则是不同树预测出的值的均值。
生信宝典
2022-01-19
4030
直接写和放在函数中不同的R语言用法
df$A可以索引数据框df中列名为A的列的所有值。那么假如列名是一个R对象怎么做?
生信宝典
2022-01-19
1.7K0
WGCNA分析,简单全面的最新教程(在线做,但也需要懂原理)
加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。
生信宝典
2022-01-18
19.3K6
2000+引用的fastp推出重磅更新,再提速一倍!
NGS数据分析的第一步永远是质量控制和预处理,以往类似的软件功能单一,速度慢,体验不佳。
生信宝典
2022-01-18
4420
你的adonis用对了吗?不同因素的顺序竟然对结果有很大影响
PERMANOVA原理解释:这个统计检验可用于判断PCA/PCoA等的分群效果是否显著!
生信宝典
2022-01-18
2.1K0
方差分析中的“元”和“因素”是什么?
试验中要考察的指标称为试验指标,影响试验指标的条件称为因素,因素所处的状态称为水平 (通常用于3个或更多水平时;如果只有2个水平考虑T-test);若试验中只有一个因素改变则称为单因素试验,若有两个因素改变则称为双因素试验,若有多个因素改变则称为多因素试验。
生信宝典
2022-01-18
1.1K0
Time除了监控程序运行时间还能干这个?
那如果我们想监控程序的运行内存怎么办?我们可以调用系统的time,而不是bash的time,什么区别呢?
生信宝典
2022-01-18
2600
轻轻松松画个热图
热图是很常见的图形展示方式,在◾图形解读系列 | 给你5个示例,你能看懂常用热图使用吗?有详细描述。热图基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。常用来表示不同样品组代表性基因的表达差异、不同样品组代表性化合物的含量差异、不同样品之间的两两相似性。实际上,任何一个表格数据都可以转换为热图展示。
生信宝典
2022-01-18
6220
这些21个不太好搜索其含义的特殊符号你都知道吗?
Linux命令中有一些常用符号,看到时不一定好查询它们的功能和含义,这里列举一些常见的符号和解释,欢迎大家补充完善。
生信宝典
2022-01-18
9140
NAR|北大/中科院计算所团队发布基因功能富集分析平台KOBAS-i
近日,国际知名期刊《核酸研究》(Nucleic Acids Research,IF:16.971)在线发表了北京大学孔雷课题组与中国科学院计算技术研究所赵屹研究员课题组合作开发的基因功能富集平台KOBAS-i (网址http://kobas.cbi.pku.edu.cn/ 或http://bioinfo.org/kobas),文章题为“KOBAS-i: intelligent prioritization and exploratory visualization of biological functions for gene enrichment analysis”。
生信宝典
2022-01-18
9280
这个为生信学习打造的开源 Python 文字教程真香!!!
欢迎来到Python的世界,本教程将带你遨游Python,领悟Python的魅力。本教程专注于帮助初学者,尤其是生物信息分析人员快速学会Python的常用功能和使用方式,因此只精选了部分Python的功能,请额外参考Python经典教程A byte of python和它的中文版 来更好的理解Python. 本文档的概念和文字描述参考了A byte of python(中文版),特此感谢。
生信宝典
2022-01-18
1.2K0
推荐几个单细胞数据分享和展示平台 | 短视频演示
Broad的单细胞数据分享和展示平台 可选择子类展示 映射单个基因的颜色到t-SNE/UMAP图 分屏展示Cluster着色图和单基因着色图 多基因热图、Dotplot、Boxplot、Violinp
生信宝典
2022-01-18
9670
43个生物信息学“事实”
名称来历 GCG, the old bioinformatics package, was named after the authors kept high-fiving each other, shouting “good code guys!”. (GCG is a software package for the analyses of gene and protein sequences.) Bowtie is named so because “it is almost impossible t
生信宝典
2022-01-18
3850
样本分布不平衡,机器学习准确率高又有什么用?
前面无论是用全部变量还是筛选出的特征变量、无论如何十折交叉验证调参,获得的模型应用于测试集时虽然预测准确率能在90%以上,但与不基于任何信息的随机猜测相比,这个模型都是统计不显著的 (这一点可能意义也不大,样本不平衡时看模型整体准确性无意义)。一个原因应该是样本不平衡导致的。DLBCL组的样品数目约为FL组的3倍。不通过建模而只是盲猜结果为DLBCL即可获得75%的正确率。而FL组的预测准确率却很低。
生信宝典
2022-01-18
9660
Cibersort免疫浸润的在线分析及R语言代码实现
上期展示了ESITMATE(基于转录组数据)计算免疫得分和肿瘤纯度的一个例子,详见ggplot2实现分半小提琴图绘制基因表达谱和免疫得分。实际上计算肿瘤纯度的方法还有InfiniumPurify(基于甲基化数据)、ABSOLUTE(基于体细胞拷贝数变异)、PurityEst(基于突变数据)等等,而计算免疫浸润的有Cibersort、ssGSEA、TIMER等算法。
生信宝典
2022-01-18
3.2K0
基因表达热图聚类并增加行列注释
聚个类,可能模式更清晰一些。聚类参数有很多,如下图:按行聚类、按列聚类、行列聚类,聚类方法是什么,距离矩阵算法选哪个,我们提供了21种聚类算法,有通用的,有特异用于菌群数据的。
生信宝典
2022-01-18
9170
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档