首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言列筛选的方法--select

    我们知道,R语言学习,80%的时间都是在清洗数据,而选择合适的数据进行分析和处理也至关重要,如何选择合适的列进行分析,你知道几种方法? 如何优雅高效的选择合适的列,让我们一起来看一下吧。 1....数据描述 数据来源是我编写的R包learnasreml中的fm数据集。...r$> library(learnasreml) r$> data(fm) r$> head(fm) 「我们的目的:」 ❝提取fm的TreeID,Rep,dj,dm,h3,并重命名为:ID,...使用R语言默认的方法:列选择 这一种,当然是简单粗暴的方法,想要哪一列,就把相关的列号提取出来,形成一个向量,进行操作即可。...而且,后面如果想要根据列的特征进行提取时(比如以h开头的列,比如属性为数字或者因子的列等等),就不能实现了。 这就要用到tidyverse的函数了,select,rename,都是一等一的良将。

    7.8K30

    R语言实现对基因组SNV进行注释

    很多时候,我们需要对取出的SNV进行注释,这个时候可能会在R上进行注释,通常注释文件都含有Chr(染色体)、Start(开始位点)、End(结束位点)、Description(描述),而我们的SNV...文件通常是拥有Position(位置),因此我们可以先定位Chr,再用Postion去定位到Start和End之间,找到相对应的Description。...){ 16 mid=-1;break 17 } 18 mid=(low+high)%/%2 19 } 20 mid 21 } 22 } 在R中使用...for循环效率低,因此也可以用data.table包的foverlap函数,改进代码如下,对bed文件进行注释,如果要对snv进行注释,只需要将snv改成相应的start和end相等的bed文件即可。...= 3) { 7 message("[usage]: BedAnnoGene.R bedfile gtffile outputfile") 8 message(" bedfile

    1.3K60

    R语言 | 根据数据框的顺序进行筛选

    目的 这里有两个数据框,两者有相同的列(ID),这里想把第一个数据框,按照第二个数据框的ID列进行提取,顺序和第二个数据框一致。...第二个系谱文件是第一个系谱文件的子集,它的系谱是正确的。我想将第一个系谱文件错误的系谱矫正一下。...「我的思路:」 1,用%in%将第一个系谱的ID,根据第二个系谱的ID提取出来,然后用第二个系谱的Sire和Dam把第一个系谱相应的IID的Sire和Dam替换掉。...如果第二个系谱本身是排序的,那么这样操作是没问题的。 「潜在的bug」 如果第二个系谱不是按顺序排的,那么上面的操作就会有错误。...比如类似(2,1,4,3,5),在匹配后的顺序是(1,2,3,4,5),你用(1,2,3,4,5)的父母本,替换为(2,1,5,3,5)的父母本,肯定是错误的。

    2K31

    R语言:以多列标准筛选特定行

    写在前面 本期我们大猫二人组的村长在新的一年首先回归,为大家带来新的推送。...这是一个病例数据,包含多个患者的诊断的时间,以及多个诊断的结果,在这里读者便提出,需要在所有这些诊断结果里面筛选出所有出现过醛固酮,但不包括继发性醛固酮的所有行。...外层代码 下面来看外层代码: rowMeans(clinic[, 31:52] == "醛固酮") > 0 这里运用了R语言中非常关键的一个知识点:对逻辑判断值进行四则运算时,TRUE会被当做1,FALSE...= "继发性醛固酮") == 1] 写在结尾 应用好对象格式是R语言编程中的精髓之一,在这个例子中就很好的利用了对象格式里面的格式性质,做了一些适当的变通处理,让数据处理过程变得更加巧妙和方便,这点大家可以在以后的数据处理中做更多的尝试和思考...大猫的R语言课堂 我是大猫,一个高中读文科但却在代码、数学的路上狂奔不止的Finance Ph. D Candidate。 我是村长,一个玩了9年指弹吉他,却被代码深深吸引的博士候选人。

    2K40

    R语言实现基因组浏览器可视化功能

    做生物信息的同仁们应该对基因组浏览器(IGV)都很熟悉,今天给大家介绍下在R语言中如何实现基因组的浏览。首先我们需要用到R包Gviz。...chr <-as.character(unique(seqnames(cpgIslands)))#获取染色体名称 gen <- genome(cpgIslands)#获取参考序列名称 以上就是数据的信息获取...,接下来就是如何绘制我们想要的可视化图像: 首先是基础的获取track信息,所用的函数是AnnotationTrack,他可以灵活的去做任何的定位,类似UCSC的定位方式输入的可以是data.frame...然后就是更加详细的信息的展示,我们需要用到GeneRegionTrack: ?...不仅可以可视化剪切事件,同时还能对指定范围相关的事件进行筛选,通过参数sashimiFilter, sashimiFilterTolerance 。

    2.9K51

    一文解决筛选低变化的基因变量(R语言)

    (1)在日常生信分析中,经常遇到的问题是需要在做差异分析或者生存分析或者相关分析、WGCNA等等分析时,经常一个卡住许多分析者的步骤是基因或者变量太多,导致分析速度太慢或者无法分析。...所以这一次的笔记是提供一个初筛的过程,在做其他的生信相关分析以前,筛选掉一些几乎在样本中没有变化或者变化较低的基因或者变量,从而大大的缩减生信分析所需的时间或者资源。...(2)在大规模生信分析时,当基因数目很大时,对每一个基因进行单因素分析比较慢,所以一个比较能够节省资源的做法是,将原先为数值类型的表达矩阵转化为‘low’,‘high’样式的表达矩阵。...这样的优势为:第一可以大大的节省生信分析所需的资源或者时间,对笔记本要求比较低。...第二这样做出来的生存分析与KM生存曲线是相对应的,这样不会遇到某些基因在连续型变量的单因素分析与KM生存曲线法生存分析所得到的的P值存在典型差异。 ? ?

    1.6K11

    R语言分位数回归预测筛选有上升潜力的股票

    p=18984 现在,分位数回归已被确立为重要的计量经济学工具。与均值回归(OLS)不同,目标不是给定x的均值,而是给定x的一些分位数。您可以使用它来查找具有良好上升潜力的股票。...您可能会认为这与股票的beta有关,但是beta与OLS相关,并且是对称的。如果市场出现上涨,高beta股票将获得上行波动的收益,但对称地,当市场下跌时,您可能会遭受巨额亏损。...使用下图最好地理解分位数回归的用法: ? 绘制的是股票收益。蓝线是OLS拟合值,红线是分位数(80%和20%)拟合值。 在上部面板中,您可以看到,当市场上涨时(X轴上的正值很高),Y轴上的分散很大。...假设我们以最差的比率做空股票,并以最佳的比率做多股票。...从结果可以看到模型有较好的表现。

    45510

    R语言实现模型的评估

    在R语言中构建模型,有很多包进行了模型的封装。那么模型的评估在R中也有对应的包ipred。此包利用了bagging和boosting算法进行对模型的的评估。...在这里我们介绍下这两个算法的区别:1)样本选择上:Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的;Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化...在这里的erro打分利用的是Brier分数。它是衡量概率校准的一个参数。...接下来看下结果的详细信息: ? #comb进行对模型进行自定义。...中间变量是在解释变量的基础上建模的,响应变量是在中间变量上定义的。

    1.7K30

    R语言相识生物信息学

    R在生物信息分析中有着极其重要的重要,无论我们做什么样的分析,我们都离不开强大的R。无论是统计学分析,还是想得到漂亮的图形,R都成了我们工作必不可少的一部分。...无论是统计学算法,还是测序深度、覆盖度、热图、火山图、Peak、PCA、共表达网络、GO、KEGG的图形化,甚至很多TCGA等数据库数据的下载,我们无一例外都可以用R实现。...接下来,我们介绍几个比较有用的网站论坛,希望对广大学习生物信息的同志们有所帮助。...Bioconductor 链接: http://www.bioconductor.org/ 介绍:本网站集中了大量的生物信息学相关的R包,并都附有相关的教程 网站链接: ? 4....R bloggers 链接:https://www.r-bloggers.com/ 介绍:本网站主要介绍大量的关于R语言的绘图及相关的R包使用 网站截图: ? 5.

    1.3K20

    时间序列的R语言实现

    这部分是用指数平滑法做的时间序列的R语言实现,建议先看看指数平滑算法。...也就是说如果预测误差和预测结果间存在相关性,那所用的简单指数平滑模型可以用其他预测方法优化。 R中提供了acf()方法可以查看样本预测误差的相关性图。...测试在1-20的延迟期中,是否有意义的非零相关值,我们可以用Ljung-Boxt测试。在R中,用Box.test()的方法。Box.test()方法中的lag参数用来定义我们想要查看的最大延迟期。...还是同一个例子,需要自己写一个R的方法plotForecastErrors()来实现可实现: ? 上面是plotForecastErrors()方法代码,行末$符号表示不换行,#开始的行表示是注释。...三个参数的取值范围都是0-1。在R中的实现,还是使用HoltWinters()方法,这一次,它的三个类似参数,我们都需要用到。

    3.2K90

    R语言实现beanplot

    Col是指的颜色的设置。其是包括四个值的向量:bean的面积(没有边框,使用边框表示该颜色)、bean内部的线条、bean外部的线条和每个bean的平均线条。...Overallline 总体数据的线的值,可以是mean或者median。 Beanlines 每一个bean的中线的数值,mean(默认),median,quantiles。...Beanlinewd bean中线的宽度。 What 由四个布尔值组成的向量,描述要绘制的内容。按照以下顺序,这些布尔值代表总平均线、豆子线、豆子平均线和豆线。...Side 指的bean的形状。包括"first", "second" 和"both"。默认是“no”。...最后我们看一下benplot的更高级应用,那就是变量之间关系的绘制: ? 最后我们总结下,beanplot图的构造: ? 欢迎大家互相学习交流!

    2.1K10

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券