腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
分组
的
data.table
上
并行
运行
用户
定义
的
for
循环
函数
r
、
for-loop
、
parallel-processing
、
data.table
、
grouping
我
在
R中使用一个大约有6e6行
的
data.table
,并创建了一个
函数
,我通过
data.table
传递该
函数
,以基于两个
分组
值创建一个新列。从技术
上
讲,我
的
函数
遍历
分组
参数
的
每一行并执行一些非常简单
的
代数操作,但是考虑到我
的
data.table
的
大小,这将需要相当长
的
时间。我熟悉foreach
浏览 15
提问于2019-09-14
得票数 0
1
回答
将每个组与
data.table
中
的
所有其他组进行比较
r
、
loops
、
data.table
我正在寻找一种
data.table
方法来潜在地消除double for
循环
。我正在尝试使用DTW算法将每个组与其他组进行比较。这里是一个MWE (未优化):library(SimilarityMeasures) tt <-
data.table
(A=1:100,B=2:101,C=rep,C是
分组
变量。我试图提出一些lapply解决方案,并在
data.table
中结合使用.SD或.BY方法,但失败了。我们
的
目标是拥有一个
浏览 2
提问于2018-09-22
得票数 3
1
回答
可以
并行
化for
循环
和依赖关系吗?
r
、
rparallel
大家好,资深R
用户
, 我对R非常陌生,不知道是否有可能将我
的
进程
并行
化。我
的
数据集基本
上
是从一个pcap文件中派生出来
的
,在这个文件中,我提取了与特定协议-MODBUS/TCP相对应
的
数据包。有超过800k
的
分组
,并且每两个连续
的
分组
对应于特定(即,相同
的
) MODBUS事务
的
查询/响应。因为有些值包含在查询/响应中,所以我创建了一个
浏览 4
提问于2015-06-24
得票数 0
1
回答
如何在我自己
的
包中使用
data.table
::setDTthreads()?
r
、
data.table
、
r-package
我是第一次开发非常小
的
包(也许
在
我
的
问题中它很重要,我想把它发布到CRAN
上
)。这个包使用
data.table
和base R中
的
函数
。我想利用
data.table
::setDTthreads()
函数
提供
的
并行
计算
的
好处。 当
用户
加载
data.table
包时,此
函数
会立即调用,但我
在
开发包时不会这样做。因为我知道
浏览 50
提问于2021-06-26
得票数 2
回答已采纳
2
回答
在
逻辑矩阵中有效地组合(和)列组
r
、
matrix
ANDed
的
数字向量ncol(exampleMatrix)中指定
的
,其中要
分组
在一起
的
列具有相同
的
值(从1到n
的
值,其中n <= ncol(exampleMatrix)和1:n中
的
每个值至少使用一次)。[,1] = exampleMatrix[,4] [,3] = exampleMatrix[,1] 我目前
的
做法基本
上
是这样<em
浏览 0
提问于2019-01-02
得票数 3
回答已采纳
1
回答
在
Hadoop服务器
上
分发R处理
r
、
hadoop
、
apache-spark
、
parallel-processing
、
distributed-computing
我目前有一个
在
本地
运行
的
R代码。它由一个foreach部
分组
成,我已经使用%dopar%
函数
成功地
并行
化了这个部分。我希望将这个
循环
从单CPU
上
的
并行
化转换为Hadoop服务器
上
的
发行版。有没有人能建议我一个合适
的
方法,以及我应该使用哪些包? 附加信息:我
的
Hadoop设置是一个Hortonworks HDP,并且我
的
forea
浏览 2
提问于2017-04-05
得票数 0
1
回答
用
data.table
实现
并行
/多线程
r
、
multithreading
、
parallel-processing
、
data.table
我有超过10亿次观测
的
大量数据,我需要执行一些缓慢
的
字符串操作。我
的
代码非常简单:如果我没有弄错的话,
data.table
在用by调用它时使用多线程,并且我试图使用它来
并行
这个操作。,我没有看到性能
的
提高。所以我
的
问题是: 如果是,是否存在启用/禁用多线程
的
条件?有什么方法可以让
用户</e
浏览 4
提问于2021-10-06
得票数 5
回答已采纳
1
回答
如何提取重复行并通过某些变量合并它们
r
、
duplicates
Cryptosporidiosis有些身份证是复制
的
,因为他们都是白人和西班牙裔,所以这为他们
的
两个“种族”创造了一个观察。我想合并这些身份证,并让他们
的
种族阅读“白人,西班牙裔”。有什么简单
的
方法吗?我想这会有点复杂。 谢谢!
浏览 4
提问于2022-03-21
得票数 0
回答已采纳
1
回答
如何在R中求和多行
r
尝试对这些数据执行一些基本
的
操作,只需添加同一时间
的
所有行。我试过SUM和dcast,但我不确定它是否在做我想做
的
事情。我想把每一个日期和时间
的
所有可用
的
、免费
的
和总数字加在一起。., sum)这样
的
东西,但是只有当我将数据更改为
在
df中有一个可用
的
、免费
的
或完全可用
的
数据时,这才能起作用。
浏览 3
提问于2015-08-13
得票数 1
回答已采纳
1
回答
分组
以
在
data.table
中形成多个逗号分隔列。
r
、
data.table
、
data-manipulation
问题:I基本
上
希望根据
data.table
语法对数据进行
分组
,并
并行
创建包含逗号分隔值
的
两个或多个列(如下面的示例所示)。方法:--我想到了一个lapply,在这里我可以提供一个列
的
列表,我想用逗号分隔这些列;但是,结果并不像预期
的
那样。 有什么建议吗?编辑我正在寻找一种方法,我只需要提供一个列表/列向量,然后在这个列表
上
应用这个
函数
(类似于不工作
的
lapply方法)。library(
data.ta
浏览 1
提问于2020-05-15
得票数 2
回答已采纳
1
回答
因子
的
R,最大值
r
、
max
我想使用R,并且有一个简单
的
dataframe:第一列是ID,第二列是分数。每个ID有36行和相应
的
分数。有几千张身份证。我想要生成一个摘要,其中包含:每个唯一ID
的
一个条目,以及它们
在
36行中
的
最大得分。apply(dataframe,2,max)将给出最大值,但不按ID细分。我知道有一系列
的
“应用”
函数
可以应用于一个表
上
,但我不知道如何组合才能得到我想要
的
。 如果它在Excel中,它将相当于一
浏览 0
提问于2015-07-13
得票数 0
回答已采纳
2
回答
子集a
data.table
,以便按组
在
持续时间内获取最近
的
3行或更多行
r
、
data.table
是否有一种更快
的
方法
在
组内划分一个
data.table
,保持最近
的
3个或更多
的
日期发生在2年内? 我有一组数据与
分组
列和日期列,我需要保持最近
的
3个或更多
的
日期
在
2年内。我编写了一个
函数
,该
函数
以
data.table
作为对象,并使用for
循环
计算datei日期,然后再对行进行细分,并在一年内发生至少3个日期时中断
循环
。然后将此
函数</em
浏览 0
提问于2018-12-22
得票数 1
回答已采纳
1
回答
并行
计算时数据表
的
子集
r
、
foreach
、
split
、
data.table
我正在尝试使用
data.table
运行
并行
计算。我有一个大
的
数据集,我想与每一组独立和平行
的
学科一起工作。Let: DataP是一个大数据集: ID、x1、x2、x3、group# Data preparationscl<-makeCluster(8) foreach(i=1:l, .combine = rbind) %do
浏览 1
提问于2016-03-16
得票数 1
回答已采纳
1
回答
从
data.table
对象调用
用户
定义
函数
r
、
data.table
我试图调用一个
用户
定义
的
函数
,以便创建一个依赖于我
的
data.table
中其他列
的
值
的
新列。
在
简单
的
情况下,我不会遇到任何错误,但是当我使用条件语句或
循环
时,
用户
定义
的
函数
似乎接收整个列作为参数。从堆栈溢出(例如:)报告
的
其他情况中,我了解到这个问题可以通过ifelse
函数
来克服if语句。但是
浏览 1
提问于2020-04-21
得票数 0
回答已采纳
1
回答
R:选择子集而不复制
r
、
immutability
、
subset
、
apply
、
copy-on-write
是否有一种方法可以从对象(数据帧、矩阵、向量)中选择子集,而无需复制所选数据
的
? 我使用相当大
的
数据集,但从不更改它们。然而,为了方便起见,我经常选择要操作
的
数据子集。每次创建一个大子集
的
副本是非常缺乏内存
的
,但是普通索引和subset (从而xapply()
函数
族)都会创建所选数据
的
副本。因此,我正在寻找能够克服这个问题
的
函数
或数据结构。一些可能
的
方法可以满足我
的
需要,并有望
在
一
浏览 2
提问于2012-03-05
得票数 12
回答已采纳
1
回答
这种策略是
并行
计算还是分布式计算?MPI
parallel-processing
、
mpi
、
distributed-computing
、
distributed-system
我有一个
函数
来计算适应度值,比如func()。
在
我
的
实现中,我使用MPI进行
并行
化。在这个while
循环
中,我使用MPI
并行
化9个func()调用。这意味着,
在
main
循环
中调用9次func(),我
并行
化了三个节点中每个节点调用3个func()调用并将结果返回给主节点
的
浏览 2
提问于2022-03-07
得票数 0
回答已采纳
1
回答
并行
化控制
azure-data-lake
、
u-sql
我在行集
上
运行
一个自
定义
处理器,它似乎不是
并行
运行
的
。基础
的
~1GB文本文件首先读入通过
循环
分区
的
表中。“提取”
运行
在200个顶点
上
,但随后(
在
“聚合”节点下),执行各种复杂计算
的
处理只发生在两个顶点
上
,尽管
并行
性参数要高得多。是否有一个特殊
的
提示需要用来指定编译器来使用更多
的
顶点?是否有需要
浏览 0
提问于2015-12-24
得票数 1
回答已采纳
1
回答
嵌套
并行
循环
:“
并行
内
循环
作为
函数
”中
的
“
并行
外部
循环
”
c++
、
c
、
multithreading
、
parallel-processing
、
openmp
我希望
在
并行
外部
循环
中
运行
一个
函数
,其中包含一个for
循环
(应该
并行
运行
)。如下所示: ...#pragma omp parallel for myfunction();} 考虑到上面的代码,我希望为main()
函数
中
的
循环
创建5个
并行
线程,并且我希
浏览 4
提问于2016-12-04
得票数 4
回答已采纳
2
回答
使用多核和
并行
编程加速
data.table
组
r
、
data.table
、
mclapply
我有一个很大
的
代码,就速度而言,聚合步骤是当前
的
瓶颈。
在
我
的
代码中,我希望加快数据
分组
的
步骤,使其更快。,这是相当快
的
,但在我
的
情况下,我仍然
在
寻找进一步
的
加速。我愿意将我
的
数据类型更改为data.frame或idata.frame对象(理论
上
,idata.frame应该比data.frames更快)。我做了一些研究,似乎plyr包有一些
并行
的
浏览 3
提问于2013-09-30
得票数 20
回答已采纳
1
回答
加载多个.cvs.gz文件
的
并行
脚本和每组计算列
的
平均值
r
、
multithreading
、
dataframe
、
parallel-processing
、
data.table
我试图
在
R中
并行
处理一个进程,以加载和计算8个.csv.gz文件
的
每组列
的
平均值。 基于类似的帖子,我尝试了下面的代码,但似乎普通
的
循环
和
并行
需要相似的时间,我使用
的
是一个带有8个核心
的
Mac。
浏览 1
提问于2022-04-12
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python循环并行,sklearn大神们早已经为你封装好了一个函数
几个方法帮你加快Python运行速度
并发编程 协程加强篇2
使用Python实现多线程和多处理方法
懂Excel轻松入门Python数据分析包pandas:循环序列分组
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券