腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
在
大型
数据
集
R
上
按
id
检查
序列
、
、
我需要
检查
年份的值
在
大型
数据
集中是否连续。下面是
数据
的外观: b <- c(2011,2012,2010, 2009:2011, 2013,2015,2017, 2010,2010, 2011) dat <- data.frame(cbind(它在小
数据
集
上工作得很好。然而,真实的
数据
集
是非常大的200kID,并且需要非常长的时间。我能做些什么来让它更快呢?seqyears <- function(
id</e
浏览 24
提问于2021-05-07
得票数 4
回答已采纳
1
回答
用不同的agg方法对不同的栏进行分组
、
、
下面是一个场景: 我希望
按
列X分组,并将数字列
按
“平均值”聚合,一些列
按
“最后”进行聚合,而将热编码的列
按
“和”进行聚合。所有的方法都是一样的。由于我们讨论的是314列
浏览 1
提问于2019-05-03
得票数 0
1
回答
在
Windows2008
R
2
上
使用Redis实现
大型
数据
集
的缓存策略
、
我正在研究是否使用Redis缓存
大型
数据
集
。 最大的
数据
集
拥有大约500万个对象。虽然每个对象都有唯一的标识符,但客户端从未单独使用它们;聚合和连接操作是
在
整个
数据
集
上
执行的。在这个程度上,我
在
每个盒子
上
安装了来自的10个Redis实例-64.2.6.12.1。我
在
使用ServiceStack的Redis客户端。我已经将
数据
分割成1000个对象的块(这似乎提供了最
浏览 5
提问于2013-06-16
得票数 2
2
回答
R
:快速生成部分
序列
、
、
我希望基于文本片段的训练来生成文本
序列
(我以前
在
中已经这样做了)。我目前的方法是
在
每个单词
上
使用一张地图: data <- data_frame(
id
= c(1,2),word = list(c("E","X","A","M","P","L","E"), c("
R
","S&
浏览 1
提问于2018-06-05
得票数 1
回答已采纳
1
回答
组合来自两个Mysql表的记录
、
我有两张桌子:
id
subrecord_of2 14 16 5
id
value 1 111与记录和子记录的相应值之和:1 2,4 11,111,2222,222,445 6 666,66列"
id
“-子为0的记录 列"sub“-子记录的列表fe
id
2和
i
浏览 2
提问于2015-04-17
得票数 1
回答已采纳
2
回答
通过最接近的匹配连接两个
数据
帧
、
、
、
、
我有两个
大型
数据
集
,它们唯一的共享特征是数字时间戳。我想
按
这个时间戳合并
数据
帧,但
数据
收集的频率不完全匹配,所以我需要允许它与最近的可能匹配合并。作为一个简化的示例,下面是一个小
数据
集
,其中包含一个值列、一些事件和一个
ID
: a<-c("150", "164", "175", "183", "195", "200&quo
浏览 3
提问于2021-07-04
得票数 1
5
回答
按
小时
在
大型
数据
集
上
分组
、
我需要保存这些平均值,这样SQL就不必
在
每个请求上选择所有这些记录。我们能做些什么?
浏览 0
提问于2011-05-06
得票数 12
4
回答
如何在
数据
不完整时
按
出生和死亡日期对人员列表进行排序
、
、
重要的结果是,Carol
在
列表中相对于她的死亡日期作为死亡日期进行排序,而不是将死亡日期与出生日期一起排序。 如果我合并或以其他方式将出生日期和死亡日期映射在一起,则不起作用。
浏览 0
提问于2015-03-29
得票数 0
1
回答
在
JVM内存中缓存大查找表
、
、
、
、
我们有一个历史事务的
大型
数据
集
,并且我们有一个系统,该系统需要根据此
数据
集中的每个历史事务
检查
新事务。在其他几点
上
,事务总是被添加到
数据
集中,并且它们永远不会被驱逐。此外,我们确实通过将
数据
集
拆分到不
浏览 10
提问于2015-05-20
得票数 2
1
回答
通过
R
中的fread读取一个
大型
数据
集
,但只需要一个子集(一个变量等于一些值)
、
、
、
、
我试图
在
R
中读取一个
大型
数据
集
(>30G),但我的笔记本电脑只有16G的RAM。但我所需要的只是这个
数据
集
的一个子集。具体地说,我需要
ID
(
在
我的
数据
集中有一个变量代表这个
ID
)等于某些值(这些值来自另一个
数据
集
)的所有观测值。如果我有足够的RAM,自然会先读取两个
数据
文件,然后
按
公共
ID
合并。由于内存
浏览 1
提问于2019-12-04
得票数 1
1
回答
在
python中加速指数移动平均
、
我发现pandas ewm
在
处理海量
数据
时运行非常慢。有没有办法加快速度,或者对指数加权移动平均使用替代函数?
浏览 16
提问于2017-03-08
得票数 0
回答已采纳
1
回答
R
使用for循环从一个
大型
csv文件设置子集并创建较小的csv文件
、
我有一个温度的
大型
数据
集
(Csv),我必须按日期(年)进行子集,以
按
十年创建5个较小的
数据
集
。因此1960-1969年的
数据
将是一个较小的csv文件,1970-1979年的
数据
将是另一个csv文件,等等。我一直
在
尝试使用for循环来实现这一点IDs<-unique(df$
ID
) temp <- df[df$
ID
=
浏览 4
提问于2015-11-22
得票数 0
1
回答
为什么我们说地图减少比传统方法更能解决“纸参考”问题?
、
、
、
、
有人说,当我们希望
在
纸质引用中进行统计时,map-还原可以比传统方法做得更好,因为传统的方法需要大量的内存/磁盘开关。我不太明白为什么传统的方法不好。假设我只
在
一台机器(没有集群)
上
运行map-还原,它是否仍然比传统方法更好地解决了一些问题?谢谢。
浏览 4
提问于2016-08-24
得票数 1
回答已采纳
2
回答
在
一个术语下存储大量键值的erlang模块是什么?
关注read performance,我想创建一个术语,比如Orddict或Proplist,其中包含大量(100,000)条目,每个条目都包含一个
ID
和一个术语值。example: K002 - Term002包含整个集合的结果术语需要从一个函数传递到另一个函数,为了几个计算目的而不将其存储
在
持久性存储中我还选择
在
现阶段不使用内存缓存以避免目前的体系结构复杂性,因此我的重点是让所有这些都是简单的密钥搜索。Orddicts是
按
密钥排序的,与普通的Dict
浏览 1
提问于2013-03-16
得票数 6
回答已采纳
1
回答
如果目标程序
集
更改,则不使用xmlserializer.dll。
、
、
我正在为我的服务生成一个dll
序列
化程序dll。这是一个
大型
的网络服务-构建大约需要2分钟。如果基础设施找到具有匹配名称的程序
集
,则加载程序
集
,然后基础结构
检查
XmlSerializerVersionAttribute,以查找已找到的程序
集
的版本与父程序
集
的当前版本之间的匹配。如果版本不匹配,则不使用已找到的程序
集
。相反,将为
序列
化生成临时程序
集
。从.Net框架源代码中可以看出,ParentAssemblyId实际<
浏览 2
提问于2017-11-21
得票数 2
1
回答
删除他人的子字符串。
、
我的字符串来自
大型
自然语言语料库。 用树结构?像下面这样的东西?(i)
在
每个字符串中添加开始和结束标记;(ii)树中的第一个节点为开始;(iii)字符串"big car“->新分支启动-大车端,但当添加"the big car”时
浏览 2
提问于2012-09-06
得票数 3
2
回答
vaex:将列移位n步
、
我正在为监督学习任务准备一个
大型
的多变量时间
序列
数据
集
,我想创建输入特征的时移版本,以便我的模型也能从过去的值中推断出来。
在
pandas中,有一个shift(n)命令,可以让您
按
n行移动一列。
在
vaex中有类似的东西吗? 我
在
vaex文档中找不到任何类似的东西。
浏览 19
提问于2020-04-03
得票数 2
回答已采纳
2
回答
使用FF包创建和重塑
R
中的大
数据
的函数
、
、
、
、
我是
R
和FF包的新手,我试图更好地理解FF如何允许用户使用
大型
数据
集
(>4Gb)。我花了相当长的时间在网上搜索教程,但是我能找到的那些基本
上
都超出了我的想象。我学得最好,所以作为练习,我想知道如何创建一个长格式的时间
序列
数据
集
,类似于
R
内置的"Indometh“
数据
集
,使用任意值。然后我想把它重塑成宽格式。然后,我想将输出保存为csv文件。对于小型
数据
集</
浏览 3
提问于2014-01-31
得票数 2
回答已采纳
2
回答
SSIS事务-
大型
记录
集
、
、
我想知道SSIS如何处理大
数据
集
的事务。我有一个大约150,000行的“
大型
”
数据
集
,其中的每一行都需要根据业务规则进行验证,作为从临时
数据
库到实时
数据
库的ETL的一部分。如果任何记录不符合其业务规则,则任何记录都不应在实时
数据
库中结束(即回滚事务)。我目前的想法是
在</
浏览 3
提问于2009-05-28
得票数 0
回答已采纳
1
回答
在
Excel中转换具有标头的
大型
数据
集
、
上面的图像显示了我正在处理的时间
序列
数据
的当前结构。它有许多列的时间
序列
数据
,这些列由标题行中的客户
id
标识。为了
在
枢轴表中使用这些
数据
进行分析,我想将其转换为如下所示的格式: 在这里,customer
id
变成了描述时间
序列
数据
的维度。由于这是一个
大型
数据
集
,手动将
数据
转换为所需格式将是一个巨大的时间接收器。另外,我没有像Pow
浏览 1
提问于2015-07-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
引入N-gram改进Transformer架构,ACL匿名论文超越Primer等基准
语言模型不务正业做起目标检测,性能比DETR更好
BioMart包实现不同物种之间同源基因转换
biomaRt包实现不同物种之间同源基因转换
快速掌握R语言中类SQL数据库操作技巧
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券