本文作者蒋刘一琦,自嘲是一个有艺术追求的生信狗,毕业于浙江大学生物信息学专业,目前在复旦大学就读研究生,研究方向为宏基因组。
难道是我的操作出了问题?难道是我用的R 包版本不对,函数不同?难道是随机数的问题?
大数据文摘出品 编译:睡不着的iris、陈同学、YYY 不知道如何在地图上可视化网络图?下面这篇博客将使用R中的igraph、ggplot2或ggraph包来介绍三种在地图上可视化网络图的方法。在对地理位置以及位置的连接关系进行可视化时,还可以在图中展示一些属性。 当我们对节点(nodes)为地理位置的网络图进行可视化时,比较有效的做法是将这些节点绘制在地图上并画出它们之间的连接关系,因为这样我们可以直接看到网络图中节点的地理分布及其连接关系。 但这与传统的网络图是不同的。在传统的网络图中,节点的分布取决于
作者:严涛 浙江大学作物遗传育种在读研究生(生物信息学方向)伪码农,R语言爱好者,爱开源
set.seed(n)主要是为了重复生成相同的随机数,特别用于重复性验证。只要在使用函数生成随机数之前设定set.seed(n),即可生成相同的随机数。
但是我看了看《单细胞天地》的优秀学员, 他的教程:Seurat包基本分析实战—文献图表复现,并没有遇到类似的问题。
昨天写的[[102-R数据整理12-缺失值的高级处理:用mice进行多重填补]],后台收到了一位朋友有意思的反馈。
set.seed()用于设定随机数种子,一个特定的种子可以产生一个特定的伪随机序列,这个函数的主要目的,是让模拟能够可重复出现,因为很多时候我们需要取随机数,但这段代码再跑一次的时候,结果就不一样了,如果需要重复出现同样的随机结果的话,就可以用set.seed()。
Functions for probability distributions in R
不知道大家平时在使用R的时候有没有见到过这样一些比较奇怪的操作符,%>%, %T>%, %$% 和 %<>%。今天小编就来跟大家掰次掰次。这些操作符都是来自于一个叫做magrittr的R包,所以我们先来安装一下。
在做统计分析的过程中,经常需要进行随机抽样,R 提供了多种生成随机数的函数,并且可以进行多种形式的抽样。
在典型的探索性数据分析工作流程中,数据可视化和统计建模是两个不同的阶段,而我们也希望能够在最终的可视化结果中将相关统计指标呈现出来,如何让将两种有效结合,使得数据探索更加简单快捷呢?今天这篇推文就告诉你如何高效解决这个问题。
前面简单介绍了shinydashboard的标题栏,会发现标题栏是个鸡肋,只要掌握如何设置title即可。这一节简单介绍一下侧边栏。侧边栏(siderbar)主要起到导航作用,可以简单理解为输入栏,不同的输入栏(输入),主体(body)就呈现出不同内容(输出)。
今天给大家分享三种在ggplot2包画的图形上添加拟合的线性回归方程和R^2的值的方法。
可以看到有16个指标支持最佳聚类数目为3,5个指标支持聚类数为2,所以该方法推荐的最佳聚类数目为3.
今天给大家介绍一个小编在查阅资料时发现的一个非常棒的可视化绘制工具-R-WVPlots包,该包提供多个优秀可视化绘制函数,如:ROC曲线、增益曲线(gain curve)、具有边际分布的散点图(scatter plot with marginal distributions)、具有边际密度的条件散点图(conditioned scatter plot with marginal densities) 等。具体内容包括:
通常,基因集富集分析的结果(例如使用 limma::fry、singscore 或 GSEA)由一长串基因集组成。然后生物学家必须搜索这些列表,以确定新出现的主题来解释改变的生物过程。这项任务可能是劳动密集型的,因此需要解决方案来总结来自此类分析的大量结果
前文《R-概率统计与模拟》介绍了一些用 R 进行概率模拟的实验,本文继续上次的工作,并在此过程中回顾一些相关的概率统计知识。
今天给大家简单的介绍经典的聚类学习算法,K均值算法。 K均值算法的R语言代码 # 加载R包 library(tidyverse) # data manipulation library(cluster) # clustering algorithms library(factoextra) # clustering algorithms & visualization # 数据准备 df <- USArrests # 数据缺失值处理 df <- na.omit(df) # 删除含有缺失值的样本
我们现在主要的一个业务是给科研单位等提供数据库构建服务,目前承接的数据库已经发表了3篇NAR文章,具体见你的数据也可以-三篇NAR的数据库。
例如,使用的rstan包采用了一个Hamiltonian Monte Carlo算法。用于贝叶斯建模的另一个rjags包采用了Gibbs sampling算法。尽管细节有所不同,但这两种算法都是基于基本的Metropolis-Hastings算法的变体。
写论文画图的时候小提琴图,热图,箱线图,画来画去都长得差不多,是不是觉得很烦恼?今天小编为大家介绍一个可以让科研论文统计绘图颜值提升好几个level的R包:ggstatsplot。
前面介绍了拿到脏数据后,对缺失值的处理数据分析|R-缺失值处理,今天分享一下另一种脏数据-异常值的处理。
上一讲我们提到了66-R可视化10-自由的在ggplot上添加文本(柱状图加计数)[2]
SIR模型是一种传播模型,是信息传播过程的抽象描述。 SIR模型是传染病模型中最经典的模型,其中S表示易感者,I表示感染者,R表示移除者。
作者:张丹(Conan), 程序员Java,R,PHP,Javascript blog: http://blog.fens.me 随机变量在我们的生活中处处可见,如每日天气,股价涨跌,彩票中奖等,这些事情都是事前不可预言其结果的,就算在相同的条件下重复进行试验,其结果未必相同。数学家们总结了这种规律,用概率分布来描述随机变量取值。 就算股价不能预测,但如果我们知道它的概率分布,那么有90%的可能我们可以猜出答案。 目录 正态分布 指数分步 γ(伽玛)分布 weibull分布 F分布 T分布 β(贝塔)分布
正如笔者在前文《公众号一岁啦》中所说,近期在复习概率统计相关的知识。机缘巧合,笔者遇到了几个比较有意思的题目,和朋友们分享一下:
最近剑峰在 Hiplot 服务器上线了 UCSC Xena 的镜像 https://xena.hiplot.com.cn/,本文是对已部署镜像的下载速度情况进行一个简单的测评。
作者:TAVISH SRIVASTAVA 翻译:席雄芬 校对:丁一 引言 预测模型的准确率可以用2种方法来提高:要么进行特征设计,要么直接使用boosting算法。参加过许多数据科学大赛后,我发现许多人喜欢用boosting算法,因为它只需更少的时间就能产生相似的结果。 目前有许多boosting算法,如Gradient Boosting、 XGBoost,、AdaBoost和Gentle Boost等等。每个算法都有自己基本的数学原理并且在使用它们时都会发现有一些细微的变化。如果你刚接触boostin
别说,还真有,而且常见的统计图形它都能绘制,更重要的是,统计指标信息自动添加,绘制的结果完全符合出版需求~~
编者按:上个月菌群月坛,在军科院听取王军组陈亮博士分享网络分析的经验,不仅使我对网络的背景知识有了更全面的认识,更使我手上一个关于菌根的课题有极大的启示。这么好的知识,当然希望和大家分享,故约稿陈博士在“宏基因组”发布一下他的经验,感谢陈博士的整理和分享。下面是正文:
我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)给粉丝朋友们带来了很多理解上的挑战:
在做任何数据分析的第一步,是根据个人需求创建数据集,存储数据的结构是多样的,包括向量,矩阵、数据框、因子以及列表等。其实,以上几个R语言的独特术语,在C++中也会经常用到,导致很多人都会误认为自己很熟悉了,然而在实际的应用中,却经常出现错误。最近在处理一波量大的数据,在运行程序的过程中,因为前期数据处理错误却出现各种bug,经过检查数据集发现是数据管理的问题,为了巩固R语言的基本数据管理,特地重新基础知识。
上文ISME-人类微生物多样性与疾病的关系中提到了,采用Cohen's d statistic对效应量进行了检验。本文对此进行解释。
David Salazar 发布了一系列博客介绍因果关系。在之前的文章中,他将因果关系定义为干预分布(interventional distribution),并介绍了两种识别因果关系的策略:后门准则和前门准则。然而,这些准则并不适用于所有因果关系。
set.seed()这个函数大家可能经常会看到这个函数,他的作用是保证自己模拟的数据和示例代码完全一致
并非所有结果/因变量都可以使用线性回归进行合理建模。也许第二种最常见的回归模型是逻辑回归,它适用于二元结果数据。如何计算逻辑回归模型的R平方?
我们在心理学网络论文中看到的一个问题是,作者有时会对其数据的可视化进行过度解释。这尤其涉及到图形的布局和节点的位置,例如:网络中的节点是否聚集在某些社区 ( 点击文末“阅读原文”获取完整代码数据******** )。
ggstatsplot是ggplot2包的扩展包,可以同时输出美观的图片和统计分析结果,对于经常做统计分析或者生信人来说非常有用。
同样是聚类分析,上一次介绍的是层次聚类分法,这种方法输出的聚类树状图是其最大的优点,但是层次分析法的缺点就在于适合的样本数比较小,大概在150个左右。所以,当我们面临更大的数据时,划分聚类法就是更好的选择,虽然没有树状聚类图,却而代之的是圈型的聚类图。
维恩图用于展示在不同的事物群组(集合)之间的数学或逻辑联系,尤其适合用来表示集合(或)类之间的“大致关系”,它也常常被用来帮助推导(或理解推导过程)关于集合运算(或类运算)的一些规律。
交集、并集、补集、差集,这些在R语言中如何实现呢,这篇博客介绍一下。 首先,模拟一下数据:a为1-10的数,b为5-15的数。 这里,推荐dplyr中的函数, library(dplyr) a = 1:10 b = 5:15 a b 📷 1. 向量 1. 1 交集(intersect) R中的函数为:intersect「示例图:黄色线的区域,就是目标区域」 📷 # 交集 intersect(a,b) 📷 1.2 交集(union) R中的函数为:union「示例图:黄色线的区域,就是目标区域」 📷 在
R语言中计算交集、并集、并集、差集,这些数学概念,这里汇总一下。包括向量的操作和数据框的操作。可以说是非常全面了。
ComplexHeatmap包有一个densityHeatmap()函数用来对一组分布进行可视化。例如下面的例子:
在图形上显示文本,或者标签(与文本的区别是在文本外有一个矩阵边框)是常规需求。用 ggplot2 画图时,有一个默认的几何对象 geom_text 在图上添加文本,但有时候表现得并不好,比如文本与点重叠在一起,文本与文本之间重叠在一起。
亚细胞定位是蛋白质功能的一个主要的决定因素,细胞中的蛋白质复合物不断形成和分解,蛋白质在不同的亚细胞组分之间动态流动以执行其生物功能。
领取专属 10元无门槛券
手把手带您无忧上云