为什么智能舍入在使用map/lapply时与不使用map/lapply时的工作方式不同？

智能舍入在使用map/lapply时与不使用map/lapply时的工作方式不同的原因是因为map/lapply函数在处理数据时会将数据分成多个小块进行并行处理，而智能舍入是一种对数据进行舍入处理的方法。

智能舍入是指根据数据的小数部分来决定舍入的方式，如果小数部分大于等于0.5，则向上舍入；如果小数部分小于0.5，则向下舍入。这种舍入方式可以保证舍入后的结果更加接近真实值。

在使用map/lapply函数时，数据被分成多个小块进行并行处理，每个小块的处理结果可能会有微小的差异。如果在每个小块的处理过程中都使用智能舍入，那么最终的结果可能会受到每个小块处理结果的累积影响，导致整体结果与不使用map/lapply时的结果不同。

为了避免这种情况，可以在使用map/lapply函数时选择不使用智能舍入，而是使用其他舍入方式，如四舍五入或向零舍入。这样可以保证在并行处理过程中，每个小块的处理结果不会对最终结果产生影响，从而保持与不使用map/lapply时的工作方式一致。

总结起来，智能舍入在使用map/lapply时与不使用map/lapply时的工作方式不同，是因为map/lapply函数的并行处理方式可能导致每个小块的处理结果累积影响最终结果，为了保持一致性，可以选择不使用智能舍入而使用其他舍入方式。

相关·内容

R语言数据清洗实战——复杂数据结构与list解析

，保存json的时候用过list.save，不知道大家还有印象不？）...75列，说明函数按照子列表中长度最大的列进行展开与合并的。...接下来怎么办呢，那么笨办法只能将53、64和75条信息的不同子list分隔成三个不同的列表对象，然后分别展开。...可是不觉得以上步骤有些繁琐嘛~简单方法当然有啦，任坤大大开发的rlist是专门针对R语言list结构数据处理的，其中封装了很多功能强大的列表操作函数，使得在R语言中操作列表就像使用dplyr操作data.frame...library("rlist") library("pipeR") rlist的使用还是有一定难度的，因为涉及到一些非结构化数据以及递归的操作，今天只涉及其中一个函数，即list.map() list.map

1.5K5 0

R tips：使用enframe和map2优雅的迭代列表

在R中更易于处理的数据形式是data.frame，list并不是太好处理，常用操作就是对它进行循环迭代。...for或者lapply迭代可以使用for循环或者lapply对列表进行迭代，比如要绘图，则可以： for (i in test) plot(i) lapply(test, plot) 都是将列表中的三个元素绘制出三个散点图...同时对name和value两列数据进行迭代，使用map2函数： # 可以使用plot绘制 # name和value的值分别使用.x和.y引用 test_t %$% map2(name, value, ~...如果使用ggplot2绘制，则是如下： ? 这里传递test_t的参数给map2时使用magrittr包的”爆炸运算符“：%$%。...它的作用可和with类似，使用它后，管道后面的函数可以直接使用test_t的列名。 ggplot2后面的函数部分，x与y分别是对应name和value，最后绘图即可。

1.9K1 0

高效R编程

总用或永远不用都是不明智的，通常，变量有固有顺序，或你有固定不变的类别集合，考虑使用因子。...lapply() 输入是向量/列表，返回列表。 sapply()和vapply()与lapply()类似，返回值不一定是列表。...lapply()与vapply()一致，dplyr::select()与dplyr::filter()也是.purr中是map_dbl()代替Map()，flatten_df()代替unlist()。...UseMethod("mean") # 字节编译 cmpfun() 编译代码安装时在...对不同包的效果不一样，特别是某包已经有大量邓编译代码时。

1.3K3 0

R tips：进一步的debug并修复cnetplot绘图bug

在R升级到4.0+后，clusterProfiler的cnetplot会报如下的rescale错误，这个现象以及解决方法在以前的推文：R tips：debug并修复一个ggplot2绘图错误的例子中曾经说过...同样的使用的测试R对象在如下位置文件名：test.rds 链接：https://pan.baidu.com/s/1l2hqNw034OEBwVvfy7_01g 提取码：kezh 载入工具包及导入rds...（2）而报错的直接位置是来源于data <- lapply(data, ggplot2:::scales_map_df, scales = npscales)，正是其中的scales_map_df函数出错...() 在Rstudio界面中一直next，直到下面这一条命令时停止，因为这条命令之后就会出现AsIs对象。...在Rstudio的debug界面中，继续next，一直到第40行代码，也就是报错的代码处暂停：同样的逻辑，我们去深入一下代码细节，先看一下scales_map_df的作用：对每一个scale对象，调用了它的

3.1K8 0

R tips：debug并修复一个ggplot2绘图错误的例子

出现bug的代码是在使用clusterProfiler的cnetplot函数绘制一个富集分析图，正常情况下，它应该是出图如下： bug重现出现问题的R对象是一个clusterProfiler的富集分析对象...scale$map_df(df = df)) #9: unlist(lapply(scales$scales, function(scale) scale$map_df(df = df)), recursive...UseMethod("print"))(x) 可以看到，ggplot2对象p在绘制图形时发生了错误：第一个调用方法是print泛型方法，然后方法分发到print.ggplot方法上(#2)，再然后是调用...ggplot_build.ggplot方法是ggplot2包中的一个方法，call stack中可以发现是它的lapply(data, scales_map_df, scales = npscales)...不过对于要修复这个问题来说，目前的信息已经足够了。如何使用RStudio进行debug代码以及如何自由的查看R中的函数源码，在以前的R tips推文中都曾经说过。

2.6K2 0

第12章大数据分析（R和Hadoop) 笔记

当数据量大到一台机器无法处理时，只能求助于超算或者Hadoop这样的可扩展方案。Hadoop是最流行的一种开源可扩展大数据处理基础架构，基于集群并行数据存储和计算。...rhbase：R-HBase的交互接口，操纵存储在HBase中的表格。 plyrmr：MapReduce的高级抽象，支持勒plyr语法实现常规数据操作。...ravro：读写avro文件，与HDFS数据交换。准备RHadoop环境使用这个虚拟机啦，这个公司好像已经停止提供相应镜像了，找到一个书中提到的mapr的。...如果没法实践，那就理解下具体过程吧：MapReduce程序被分成map和reduce两部分，map函数先使用strsplit函数将一行分成单词，然后unlist函数将结果处理成字符向量，最后返回键值组合...可以发现，任务不大的情况下，MapReduce方法要完成几十秒的任务也需要几分钟，原因是需要花费一定时间用于启动系统服务、协调不同进程间的任务，从每个节点读取数据。

5984 0

R语言中 apply 函数详解

因此，在Python和R中都有大量的函数和工具可以帮助我们完成这项任务，这一点也不奇怪。今天，我们将使用R并学习在R中转换数据时使用最广泛的一组“apply”函数。...让我们将其与lappy()在相同数据上的输出进行比较： sum_lapply3 <- lapply(data, sum) #output sum_lapply3 ?...你可以看到输出与上面返回列表的lappy有何不同 vapply() 来到vapply()函数。lapply()、apply()和vapply()这三个函数是专门为所有类型的向量定制的。...因此，在处理具有不同数据类型特性的数据帧时，最好使用vapply()。 tapply() 简单地说，tapply()允许我们将数据分组，并对每个分组执行操作。...因此，在处理数据帧时，mapply是一个非常方便的函数。现在，让我们看看如何在实际数据集上使用这些函数。

20.3K4 0

GWAS实战教程之制作PLINK格式的文件（下）

在上期推送中，我带领大家制作了表型文件和.map文件，今天我们学习一下如何制作.ped文件，关于.ped文件的信息请参见往期内容GWAS实战之制作PLINK格式的文件（上）。...由于我们使用的数据集中最显著的位点是位于1号染色体的DDR2基因上（PMID：29216386），因此为了处理简单，我只挑选1号染色体上的位点用于分析。...', sep='\t',header=F) # 读取之前做的.map文件 head(annot) annot <- annot[which(annot$V1 == 1),] # 选择1号染色体上的位点...mygeno) <- markerID # 给新数据添加列名 mygeno <- as.data.frame(mygeno) mygeno[1:5,1:5] ##这里新建一个列表，用于存储基因型数据，便于后续使用...k（k=1，2，3等）列与A2的第k列属于同一位点（SNP） pedList <- list() for ( i in 1:ncol(A1) ) { pedList[[2*i-1]]<-

7651 0

R语言进阶笔记5 | purrr替代循环

(dat,mean) $y1 [1] 0.7675322 $y2 [1] 10.36194 如果使用apply系列的lapply函数，是这样处理的： > lapply(dat,mean) $y1 [...3 map的不同类型 map函数，支持一元函数 map2函数，支持二元函数 pmap函数，支持多元函数这里先模拟数据： > dat = data.frame(x1 =rnorm(10),x2 = rnorm...,..4)) 4.3 map不同的后缀 *_chr，比如map_chr, map2_chr, pmap_chr等，返回字符 *_lgl，返回逻辑型向量 *_dbl，返回实数型向量 *_int，返回数字型向量...1] -0.2338953 $x3 [1] -0.3660053 $x4 [1] 0.02137338 7 map的用法1：批量建模这里使用我的R包learnasreml中的MET数据，进行测试...对比 walk和map函数组合上类似，不同的是walk不返回结果，比如你要保存数据时，就可以用walk函数系列。

3.3K1 0

「R」apply,lapply,sapply用法探索

但是，由于在R语言中apply函数与其他语言循环体的处理思路是完全不一样的，所以apply函数族一直是使用者玩不转一类核心函数。...，用for循环实现的计算是耗时最长的，apply实现的循环耗时很短，而直接使用R语言内置的向量计算的操作几乎不耗时。...通过上面的测试，对同一个计算来说，优先考虑R语言内置的向量计算，必须要用到循环时则使用apply函数，应该尽量避免显示的使用for,while等操作方法。...，那么直接使用lapply就不能达到想要的效果了。...时，输出结果按数组进行分组 USE.NAMES: 如果X为字符串，TRUE设置字符串为数据名，FALSE不设置我们还用上面lapply的计算需求进行说明。

4.5K3 2

隐式循环及function函数

隐式循环在单细胞分析中，我们读取多个单细胞数据集时通常会用到lapply()函数，循环读取多个数据集比如在技能树最近如何整合多个单细胞数据集推文中，就多次用到了lapply()函数 dir='GSE152938...FUN：函数,即对x的每一行/列执行FUN这个函数 simplify:表明是否应简化结果的逻辑,一般默认为 = TRUE 使用的小栗子： #循环处理数据 test<- iris[1:6,1:4] apply...[,1:4], 2, plot) lapply()函数 lapply返回与X长度相同的列表，其中的每个元素都是将FUN应用于X的相应元素的结果。...NAMES = FALSE)与lapply(x, f)相同。 Vapply类似于sapply，但它有一个预先指定的返回值类型，因此使用它可能更安全(有时更快)。...写函数的函数——function() 使用apply或者lapply函数时，都有FUN参数，就是我们在执行循环时需要用的函数，这个函数可以是内置的比如mean或者sum等函数，也可以由我们自己构建如果需要写对应需求的函数

1401 0

现代生物学领域的生物信息学权重高吗

page=272 书籍的数量一直在更新。。。...简单的使用谷歌浏览器的检查功能，就可以看到每个页面的书籍列表里面的书籍大标题是： <a href="https://www.springer.com/book/9781071634165" data-track...(titles_txt, '[[',1))) wd(unlist(lapply(titles_txt, '[[',2))) 值得注意的是，如果并没有指定随机数种子，那么词云绘图结果每次布局都不一样哦...基本上可以看到《现代生物学》所涉及的内容：《现代生物学》是一个广泛的概念，它涵盖了生物学的许多不同领域，包括但不限于分子生物学、细胞生物学、生物化学、遗传学、生物物理学、生物信息学、生态学、进化生物学等...这些领域都在不断地发展和进步，以适应科学和技术的快速发展。在《现代生物学》中，有几个关键的主题和趋势：分子和细胞生物学：这是现代生物学的核心，包括研究生命的基本单位——细胞，以及细胞内的分子过程。

1752 0

R数据分析大数据当中的化整为零（Split-Apply-Combine）策略

什么时候我们需要使用到化整为零的策略呢？有以下三种情况：数据需要分组处理数据需要按照每行或者每列来处理数据需要分级处理，和分组很类似，但是分级时需要考虑分级之间的关系。...最直观的过程是使用Loop循环。这里使用一个例子来讲解一下如何实现化整为零策略。在plyr包中有数据ozone,它是一个三维矩阵(24X24X72)，其中最后一维72是指的6年12个月每个月的结果。...而使用for loop，只能一块接一块的处理，在速度上可能没有并行处理来得快。而在R当中，有一系列相关的函数，apply, lapply, sapply, tapply, mapply, sweep。...sapply的返回值其实就是在lapply的基础上再使用了simplify2array(x, higher=TRUE)函数，使用其结果变成一个array。...我们如果需要做上述的分析应该怎么办呢？在思路上，我们的想法可能会是先从ozonedf出发生成一个类似ozone这样子的数据，然后再使用apply,lapply这样的函数来完成就可以。

1.3K8 0

108-R可视化32-通过seurat包中的LabelClusters学习ggplot之一

在先前的内容里：[[66-R可视化10-自由的在ggplot上添加文本（柱状图加计数）]]，我们提到过添加文本的方法。...于是我就想，如果我给某个ggplot 对象，不同的data 与mapping呢？...虽然从内部构造来说可以省略GetXYAesthetics 这部分的代码，但是，从用户使用来说确实多此一举的，因为这些信息明明就保留在了ggplot 对象中的layers 层中。...，我并没有在grid 相关的内容或ggplot 的构造中留意到这个函数（或许我还没读到）。...接下来就是将上面浏览过的pb 中的color信息添加到数据框中： data <- cbind(data, color = pb$data[[1]][[1]]) 至于为什么这么做，接下来即将操作的label

1K1 0

131-R茶话会23-R的随机数有点坑

前言最近我在复现一篇文章的操作。发现每一次生成的结果都有所不同。难道是我的操作出了问题？难道是我用的R 包版本不对，函数不同？难道是随机数的问题？后来发现，果然是随机数的问题。...当我在循环内部加了一个种子： sce = lapply(unique(batchFactor) , function(current.batch){ set.seed(32) idx = which...[1] 0.5058405 0.5948084 0.8087471 [[3]] [1] 0.5058405 0.5948084 0.8087471 3-随机数的触发与设定都是全局的关于随机数的触发...虽然这个函数，可以显示的在函数内部调用随机数和函数，帮助我们明确随机数与随机函数的对应关系： > withr::with_seed(32, runif(1:5)) [1] 0.5058405 0.5948084...此外，我也推荐大家在写涉及到随机数的代码时，使用withr::with_seed，起码告诉并且提醒自己，哪个种子，对应哪个随机函数。防止被吞，或者吞了其他人的种子。

5461 0

你研究的基因发表了多少篇文献？这些文献有什么特点？？？

中下载的gene与pubmed的文献ID的文件，统计了研究基因与出版文献的对应关系。...这里来探索一下你研究的基因，发表的文献，可以看看都发表在什么期刊，对题目进行文本挖掘，可以统计每年的发表文献数量等等。。。。下面是探索ADORA1这个基因的研究情况。...library(tidyr) library(rvest) library(dplyr) library(RCurl) library(XML) library(stringr) pubmedinfo <- lapply...但文献条数太多就不建议使用。...在NCBI上，是有所有文献的信息数据的，可以直接下载，唯一的缺点就是数据量不小，而且是xml的文件，需要全部整理统计出来。

5230 0

SparkR：数据科学家的新利器

为了符合R用户经常使用lapply()对一个list中的每一个元素应用某个指定的函数的习惯，SparkR在RDD类上提供了SparkR专有的transformation方法：lapply()、lapplyPartition...相较于RDD API，DataFrame API更受社区的推崇，这是因为： DataFrame的执行过程由Catalyst优化器在内部进行智能的优化，比如过滤器下推，表达式直接生成字节码。...为了更符合R用户的习惯，SparkR还支持用$、[]、[[]]操作符选择列，可以用$ <- 的语法来增加、修改和删除列 RDD map类操作：lapply()/map()，flatMap()，lapplyPartition...RDD和DataFrame API的调用形式和Java/Scala API有些不同。...假设rdd为一个RDD对象，在Java/Scala API中，调用rdd的map()方法的形式为：rdd.map(…)，而在SparkR中，调用的形式为：map(rdd, …)。

4.1K2 0

R 数据整理（十一：用purrr包实现更花样的匿名函数使用）

需要注意的是，如果map()等泛函中的无名函数需要访问其它变量的话，需要理解其变量作用域或访问环境。另外，无名函数中的其它变量在每次被map()应用到输入列表的元素时都会重新计算求值。...提取列表元素的简写 map 除了调用无名函数时可以简写，在提取列表元素时也有简写的方法。较为复杂的数据，有时表现为列表的列表，每个列表元素都是列表或者向量。...[[3]] ## [1] 2 3 1 5 4 ## ## [[4]] ## [1] 2 3 1 5 4 Map-reduce算法 Map-reduce是大数据技术中的重要算法，在Hadoop分布式数据库中主要使用此算法思想...将数据分散存储在不同计算节点中，将需要的操作先映射到每台计算节点，进行信息提取压缩，最后用reduce的思想将不同节点的信息整合在一起。 6....使用示性函数的泛函 some some(.x, .p)，对数据列表或向量.x的每一个元素用.p判断，只要至少有一个为真，结果就为真；every(.x, .p)与some类似，但需要所有元素的结果都为真结果才为真

2.5K3 0

【数据科学家】SparkR：数据科学家的新利器

3.5K10 0

什么，需要5Tb内存啊！

最近我就接到一个粉丝咨询，说他想处理一个公共数据集，只有8个原位肿瘤+3个转移肿瘤的10X单细胞转录组样品，但是数据处理的过程发现系统提示说需要5Tb内存，虽然说他自己有一个512G内存的服务器，但是也承受不起...() sce.integrated <- IntegrateData(anchorset = sce.anchors, dims = 1:30) Sys.time() 看起来中规中矩，就是我一直教学使用的代码...所以我猜测应该是他的10X的3个文件里面并没有过滤，把全部的barcode输出了，我就给他加上了一个简单的检查代码，以及两个标准过滤： lapply(sceList, function(x) print...(sceList, function(x) print(x)) 接下来使用我的32G内存的Mac，都可以走这个CCA流程啦！...太有意思了，为什么我想讲解这个故事呢，因为在很多交流群都看到有粉丝问内存不够，实际上很多情况下，内存不够是因为你代码学的很差。如果你连512G内存都没有呢？临时使用的话，可以考虑我们的共享云哦！

1K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云